大數據建模技術在人身保險反欺詐領域的應用路徑解析論文
一、引言
隨著大數據技術的蓬勃發展,尤其是“Alpha Go”戰勝李世石后,又以“Master”的身份橫掃圍棋界,使基于機器學習的大數據建模成為了最新的技術熱點。通過模型訓練讓機器智能化,代替人工,降低成本,提高效率和準確率,其眾多的優勢和巨大的商業價值吸引了各行各業的商業巨頭紛紛開始打造屬于自己的人工智能體系,尤以騰訊、阿里、百度等擁有明顯大數據資源優勢的互聯網企業為代表。目前,人臉識別、語義識別、無人駕駛、智能風險識別、精準預測模型等基于大數據的新技術在商業上的應用已經日趨成熟,并通過“互聯網+”迅速輻射到金融領域,開始重塑甚至顛覆傳統的商業及運營管理模式。這種變革帶來的競爭壓力迫使銀行、保險等金融機構必須快速轉型升級,積極尋求自身業務與大數據和新技術之間的契合點。而通過大數據構建精準風險預測模型提升風險識別的精準度和效率,對于經營風險的保險公司來說,便成了一個極具吸引力和價值的切入點。
縱觀國內保險行業,目前對于大數據建模技術的應用還處在探索和嘗試階段。整體來看,財產險領域在精準風險識別模型的應用上要略為先行一步:一方面是行業信息的整合共享更加到位,2016 年底,“全國車險反欺詐信息系統”正式上線,面向各市場主體提供保險欺詐線索識別和風險預警功能,初步實現了行業車險欺詐信息的交互共享;另一方面,由于車輛保險的數據標準化程度較高,進行大數據建模的基礎良好,因此國內部分財產險公司在車輛保險后續稽核方面通過構建大數據風險識別模型輔助稽核,取得了一定的成效。而人身保險以人的壽命和健康作為對象,其經營的風險更加復雜多樣,加之我國公民信息管理較為碎片化,數據標準化程度低,因此大數據在我國人身保險風險管控領域的應用還較為滯后,僅有數家保險公司進行了創新嘗試。
本文以大數據建模技術在人身保險反欺詐領域的應用為例,從業務場景選擇、風險特征篩選、數據清洗與整理、建模工具與算法選擇、模型準確性的驗證等方面,詳細解構了基于Spark 計算引擎、采用隨機森林算法構建重大疾病保險核保欺詐風險評估模型的路徑,以期對大數據建模技術在保險風險管控領域的應用提供一定的參考。
二、人身保險大數據建模的基礎條件分析
(一)基礎數據條件
從1980 年我國保險業恢復經營以來,經過30 多年的快速發展,到2016 年我國保險業原保險保費收入已達3.10 萬億元。三十年來,人身保險經營領域穩步拓展,險種類型不斷豐富,客戶群體持續擴充,國內主要人身保險公司已經積累起了海量的內部數據。盡管保險運營數據數字化的歷史僅二十年左右,規范的高質量數據積累時間大約只有十余年,但主要人身保險公司的內部數據已經足夠豐富。此外,金融行業的多元融合、金融機構集團化發展、大數據交易市場的興起,為人身保險公司提供了外部重要風險數據接入的渠道和機會。雖然大部分重要數據都還碎片化地散落在不同領域,但從基本面上看,已經具備進行反欺詐大數據建模的數據基礎。
(二)建模技術條件
基于機器學習的數據建模工作,2010 年以前已經在某些特定領域發揮了巨大作用,如圖像識別、自然語言處理等等。2010 年以后,隨著大數據概念的興起,機器學習大量的應用都與大數據高度耦合,幾乎可以認為,大數據是機器學習應用的最佳場景。另一方面,技術發展促使硬件資源的成本不斷降低,模型構建可用資源不斷擴展,也為算法本身的完善提供了有利條件。2012年6月,《紐約時報》報道了Google Brain項目,這個項目是由Andrew Ng 和Map-Reduce 發明人Jeff Dean 共同主導,用16000 個CPU Core的并行計算平臺訓練一種稱為“深層神經網絡”的機器學習模型,深度學習的概念由此提出。通過大量模擬人腦行為的計算,深度學習為人類解決很多復雜的問題打開了一扇無限的大門。
此外,在建模的工具和語言上,近幾年也有了井噴式的發展。除去老牌的SPSS 和SAS 這樣的企業在向大數據、分布式轉型,R和Python 語言的發展和應用也簡化了數據分析和建模的難度,各大互聯網企業也紛紛推出自己的機器學習平臺,像Google 的Tensor Flow、IBM 的Watson 等等,都已經有了很多成熟的應用。
各方技術條件的成熟,為大數據建模技術在人身保險反欺詐工作中的應用做了充分的鋪墊。該應用的探討和落地,可以有效輔助風險管控的人工作業,提高欺詐案件的識別效率和識別精準度。
(三)國內建模技術人才狀況
在大數據建模工作中,具體模型搭建這個環節的主要承擔者是“數據科學家”。“數據科學家”的概念在2009 年由Natahn Yau 首次提出,其概念是采用科學方法、運用數據挖掘工具尋找新的數據洞察的工程師。一個優秀的數據科學家需要具備業務知識、數理統計和數據分析能力、計算機相關知識及機器學習等多維度的知識體系,是業務、技術與數據三者結合的高端型人才。對此類人才高標準的要求和目前各行各業對這些人才的強大需求,造成了相關人才的緊缺,目前國內此類人才供需狀況非常緊張,處于嚴重的供不應求狀態。據2016 年數據科學家報告統計,大約三分之二的數據科學家從業時間小于5 年,有83%的企業和組織表示沒有足夠的數據科學家來解決問題。而隨著“互聯網+大數據”商業模式的巨大成功,越來越多的企業和組織對數據進行投資,這一趨勢可能繼續。
但需求催生供給,國內巨大的數據科學家人才供給缺口引致了此類人力資源價格的高企,吸引了人才資源流入國內。2016 年國內數據人才短缺的狀況已較2015 年有所改善,其中大部分屬于引進國外專家或留學歸國人員;國內高校、科研機構和各類企業也加快了對此類人才的培養。
綜合來看,目前國內人身保險行業構建精準反欺詐風險識別模型的數據條件、技術條件和人才條件均已具備,可以也應當融合數據技術重構傳統的反欺詐管理模式,以提升人身保險經營死差益。
三、基于應用實操的反欺詐大數據建模路徑探析
(一)業務場景選擇
模型的建設和應用必須基于具體的業務場景,它決定了模型的數據原料范圍、風險特征篩選、作業經驗導入和模型建成后的具體應用方式,因此在進行模型建設之前需要選定目標業務場景。下面從一個角度分析大數據模型在人身保險反欺詐實踐中適合的業務場景:
1.選擇業務類型。以契約形式來劃分,保險業務可以分為個人業務和團體業務兩種類型。人身保險公司在團體業務中能夠獲取的數據信息普遍不足,而且在團體業務中議價能力較弱,對團體業務中單一被保險人開展反欺詐工作存在一定的障礙和難度。因此,個人業務應該是人身保險公司反欺詐工作關注的重點。
2.選擇險種類型。從險種類型角度考量,高現金價值的儲蓄型險種,由于射幸性不強,故作為欺詐的標的險種可能性不大,保險公司花費大量的投入進行建模的產出很低;費用補償型短期健康險雖然存在欺詐,但多以軟性欺詐為主,且涉及到第三方(醫療機構),構建反欺詐控費模型需要龐大的醫療知識庫和海量的數據,難度大、耗時長,一般保險公司難以具備相應能力。綜合考慮業務價值、代表性、實施可行性和數據質量等多種因素,重大疾病保險是一個較為理想的切入點。
3.選擇作業環節。從保險公司業務風險管控作業鏈條和保險合同的整個生命周期考慮,核保、理賠兩個環節,一個把控入口關、一個把控出口關,是保險公司風險管控鏈條中最核心的兩個環節,都是構建和應用反欺詐風險識別模型比較理想的業務環節。基于以上幾點的考慮,本文以個人業務重大疾病保險核保階段的大數據反欺詐模型構建作為后續探討的基礎。
(二)風險特征選擇
大數據預測模型是與對應業務強綁定的。對保險公司來說,大數據反欺詐模型性能的好壞,相關業務的風險特征的選擇是最基礎也是最重要的工作。它需要依靠保險運營風險管理業務專家對實際業務的精深了解,協同數據科學家進行精細篩選。只有將與欺詐結論密切相關的業務風險特征字段放入預先選擇的范圍內,才能為后續建模過程所用;如果在最初階段就遺漏某些關鍵業務信息,則將嚴重影響模型的效果。以重大疾病保險核保階段的風險管控業務場景為例,大數據反欺詐模型建設中“本次投保信息、客戶歷史信息、銷售人員/渠道信息、外部重要風險信息”應是主要考慮到的四個維度,基于以上維度又可以進一步篩選風險特征。現簡單舉例如下:除了從保險公司內外部可以直接獲取的風險數據特征外,數據科學家往往會基于數據的相關性等因素構建一些衍生特征,目的在于用更低維度、相關性更強的特征替代原有特征,簡化模型,提升效率。這在保險公司的建模實操中也是一個非常重要的步驟。
(三)數據清洗和整理
基于預選的數據特征,需要進行數據的基礎分析和數據清洗整理。
通過數據基礎的分析,可以使數據科學家對于數據質量有一個全局的把控,也能夠獲取到各特征之間的相關性、和標簽值(Label,是否為欺詐)之間的相關性,為上文提到的衍生特征加工作基礎。數據清洗和整理,能夠保證模型訓練數據的數據質量,結合模型算法的選擇,作一些適當的數據格式轉換,可以提升模型的效率,具體有以下幾種方式:缺失值填補、量綱統一、離散連續值轉換、信息冗余值處理等。
(四)建模工具選擇
如上文所述,大數據建模技術的興起,為業內提供了多樣化的建模工具與語言的選擇。在數據量不大的基礎上可以考慮在R語言或Python 語言單機開發環境上進行模型建立;對于已經熟練使用SAS 等傳統工具的企業,可以在原有基礎上進行大數據方面的擴展和延伸;但目前基于大數據比較主流的建模工具是由UC Berkeley AMP lab (加州大學伯克利分校的AMP 實驗室)所開源的通用并行框架——Spark。
Spark ML 是Spark 的機器學習庫,支持回歸、分類、協同過濾、聚類等多種算法,部分算法支持流式訓練,而且在spark2.0 上提供了模型文件保存和調用的接口,為模型落地實施提供了基礎。數據量較大的保險公司進行重大疾病保險核保欺詐風險大數據建模時,Spark ML 是比較合適的工具選擇。
(五)建模算法選擇
本文選擇的業務場景——個人業務重大疾病保險核保階段的欺詐風險評估,可以視為一個數據的二分類問題,將欺詐案件標簽值識別為1,非欺詐案件識別為0。目前比較主流的二分類算法有:支持向量機(SVM)、決策樹、梯度下降樹、隨機森林等等。相比于其他的算法,隨機森林擁有以下優點:
1.實現比較簡單;
2.有很好的抗噪聲能力,以及較低的擬合風險;
3.高維度數據處理能力強,能同時處理離散和連續型數據;
4.訓練速度快,能較快得到變量重要性排序;
5.訓練過程中能夠實時檢測到變量間的相互影響;
6.適用于并行化計算。
保險公司在選擇算法的時候,應當綜合業務場景、數據規模和項目推進時間要求來整體考量。總體看來,隨機森林比較適合作為大型保險公司重大疾病保險核保階段的欺詐風險評估模型的建模算法。
(六)構建模型
大數據欺詐風險精準評估模型的構建是一個反復迭代的過程,其中主要分為兩個階段——訓練階段和測試階段。其中訓練階段主要是通過訓練集數據根據不同的算法以及選取的參數進行模型的初步擬合,而測試階段是通過測試集數據和評估指標從數據上驗證模型,并根據驗證結果選擇調整模型參數重新訓練或是輸出最終結果。其中參數的選取,是模型構建過程中的一個關鍵步驟,本文使用Spark ML 提供的超參數網格和交叉驗證來實現參數自動化選取;模型的驗證標準選取二分類評估中的Auc 值,該值為一個0 到1 的小數,取值越大認為模型效果越優。
考慮到本文選取隨機森林算法作為示例,所以最終的模型結果是一個N 棵決策樹的組合。每棵樹中特征為特征池中隨機選擇出的M 個變量。在隨機森林中種植決策數的具體數量,需要數據科學家和保險業務專家綜合模型的數據基礎和業務目標來確定。整個模型以每棵決策樹評分的平均值作為最終案件欺詐風險的評估值,命名為F(Fraud)值(可理解為欺詐概率值)。該值為0 到1 之間的小數,越接近1,認為欺詐風險越大。
(七)模型性能的驗證
基于大數據基礎構建的個人業務重大疾病保險核保階段欺詐風險評估模型能否投入生產環境進入實際應用,需要經過詳盡周密的性能評估。目前業內對于模型評估的兩種主要的評估度量是查準率/準確率(Precision)和召回率/查全率(Recall)。要理解這兩個度量值,首先要理解以下數據分類矩陣,又稱混淆矩陣——數據依照實際和預測的不同結果可以分為四類:
True Positives(TP):角色是反面人物,模型預測為反面人物
False Positives(FP):角色是正面人物,模型預測為反面人物
True Negatives(TN):角色是正面人物,模型預測為正面人物
False Negatives(FN):角色是反面人物,模型預測為正面人物
Precision 查準率/準確率計算公式為:在所有被預測為反面人物中,模型正確預測的比例,即TP(/ TP + FP);Recall 召回率/查全率計算公式為:在所有原本就是反面人物中,模型正確預測的比例,即TP / (TP + FN)。可以看出,通常在選擇高準確率和高召回率之間總有一種權衡,這種權衡通過對F值判定欺詐的閾值大小調整來實現。而閾值的取值要取決于構建模型的最終目的,對于某些情況而言,高準確率的選擇可能會優于高召回率。然而,對于欺詐預測模型,通常要偏向于高召回率,即使會犧牲掉一些準確率。
四、大數據模型在保險公司反欺詐實踐中的應用
(一)模型的反欺詐業務場景嵌入
大數據精準風險評估預測模型的價值實現是與具體業務強綁定的,脫離業務場景的模型無法創造價值。本文以重大疾病保險核保欺詐風險評估模型具體應用為例,簡要說明一下模型具體如何應用。
1.將模型固化為可以即插即用的系統功能模塊,能夠快速高效地在保險公司的數據倉庫中抓取風險特征數據;
2.將模型嵌入保險公司的自動核保作業系統,對所有待核保重大疾病投保申請進行全業務風險掃描,并輸出模型計算的欺詐風險評估結果——F 值;
3.保險公司運營風險管理專家根據核保作業經驗制定F 值的應用規則,對F 值較低的投保申請自動核保通過,F 值較高的則進入人工核保作業池并標識風險提示;
4.核保作業人員參考F 值及對應的風險提示,對進入人工核保作業池的投保申請進行審核,必要時可采用體檢、契約調查等更進一步的風險控制手段;
5.持續觀察模型應用效果,當模型的準確率和召回率達到較為理想的狀態時,可以考慮按比例或者全部替代人工作業,從而進一步降低保險公司運營成本。
此外,對于不需要嵌入作業流程或對作業時效要求不高的業務場景,也可以考慮以流程外批處理的方式應用模型,來輔助業務的開展。
(二)模型的迭代完善
模型的后續迭代和完善是一個長期的過程,在以下幾種情況下應當考慮對模型進行迭代:
1.出現新的重要風險特征或模型原有風險特征被新的特征替代:在有外部數據補充或者業務角度分析出大量更優的特征變量,可以對模型進行迭代。
2.出現重大的業務規則變更:當業務規則發生變化,為了適應新的業務場景,模型將會需要進行完全迭代,甚至可以理解為重建。
3.周期的迭代:模型是依賴于數據的,隨著數據的積累,模型應該進行周期性的迭代來保證其性能,可以考慮以數據增量百分比或者時間周期為標準來進行迭代。
不論因為何種原因對模型進行了迭代,都需要基于準確率和召回率重新評估模型的性能,必要的時候需要新舊模型同時在線,對比一段時間之后,再做模型的切換。
五、小結
保險欺詐是保險業自誕生以來從未徹底治愈的一個頑疾,嚴重威脅保險公司健康發展,而信息不對稱帶來的博弈地位巨大差異和保險本身的強射幸性是保險欺詐難以禁絕的重要原因。由于射幸性是保險的天然屬性難以改變,因此,盡可能地消除保險公司與投/被保人之間的信息不對稱便成為了防范與控制保險欺詐的主要途徑。通過商業調查的方式來消除信息不對稱雖然效果較好,但投入大、耗時長、成本高,不宜作為一種普遍方式應用于每一單業務,故而保險公司需要探索一條高效低廉的方式進行全業務風險掃描,篩選出高風險業務加以重點防控。近年來,隨著“互聯網+大數據”形成的現實生產力逐步滲透到保險行業,大數據建模技術有了越來越多的應用,雖然現在還不甚成熟,但其所指明的前進方向已確定無疑。將大數據建模技術應用到人身保險反欺詐領域,是一項保險業務與先進技術之間的創新結合。
本文探討了人身保險公司開展大數據建模在數據、技術、人才三方面的條件。進一步地,以大數據建模技術在人身保險反欺詐領域的應用為例,較為詳細地解構了基于Spark計算引擎、采用隨機森林算法構建重大疾病保險核保欺詐風險評估模型的路徑,并給出了模型在實際業務中的嵌入方式以及相應的迭代和完善方法。當然,由于筆者能力有限以及一些客觀條件的限制,本文的研究還存在一些不足的地方,例如模型風險特征的具體探討,各個算法之間模型性能的比較,模型落地和迭代的具體實施方案等,這些都有賴于實踐的進一步深化以豐富完善。展望未來,大數據建模技術與人身保險領域的合作將會更加深化,隨著技術能力的不斷提升,信息技術將在更高的層次上輔助保險業解決各種業務難題,在保證精準度的同時,降低作業成本,助力保險業打造出一片更加健康美好的明天。
【大數據建模技術在人身保險反欺詐領域的應用路徑解析論文】相關文章:
論文:計算機科學應用領域與應用效果解析03-15
大數據云計算技術及應用論文06-11
數據挖掘技術的教學輔助系統應用論文03-16
數據挖掘技術在就業指導的應用論文02-27
大數據技術對廣播電視監測的應用論文03-15
通訊領域計算機技術的應用論文02-22
網絡編碼中數據通信技術的應用論文03-17
環境工程領域的脈沖功率技術應用論文03-15
統計建模分析高通量生物數據及其應用提綱03-27
- 相關推薦