大資料架構和模式(五)——對大資料問題應用解決方案模式並選擇實現它的產品

developerWorks 中國發表於2015-01-31

本文使用了一個基於場景的方法,概述了可能有助於定義大資料解決方案的解決方案模式。每個場景都從一個業務問題開始,並說明為什麼需要大資料解決方案。本文會將一個具體的解決方案模式(由原子模式和複合模式組成)應用到業務場景。這個逐步分析的方法有助於使用者確定解決方案所需的元件。在文章的末尾,提供了一些建議使用的典型產品和工具。

大資料架構和模式(一)——大資料分類和架構簡介

大資料架構和模式(二)——如何知道一個大資料解決方案是否適合您的組織

大資料架構和模式(三)——理解大資料解決方案的架構層

大資料架構和模式(四)——瞭解用於大資料解決方案的原子模式和複合模式

簡介

本系列的 第 3 部分 描述了針對最常見的、經常發生的大資料問題及其解決方案的原子模式和複合模式。本文將推薦可以用於架構大資料解決方案的三個解決方案模式。每個解決方案模式都使用了一個複合模式,該模式由邏輯元件構成(參見第 3 部分的介紹)。在本文末尾處,列出了產品和工具清單,它們可對映到每一個解決方案模式的元件。

解決方案模式

以下各節將介紹可以用於架構大資料解決方案的三個解決方案模式。為了說明這些模式,我們將它們應用到特定的用例(例如,如何檢測醫療保險欺詐),但這些模式可以用於解決其他許多業務場景。每個解決方案模式都利用了一個複合模式的優勢。在下表中,列出了本文介紹的解決方案模式,以及作為其基礎的複合模式。

表 1. 每個解決方案模式所使用的複合模式
解決方案模式 複合模式
入門 儲存和探索
獲得高階業務洞察 專用和預測分析
採取下一個最佳行動 可操作的分析

用例描述:保險欺詐

財務欺詐對金融業的所有領域都帶來了巨大的風險。在美國,保險公司每年要損失數十億美元。在印度,僅僅是 2011 年的虧損總額就達到 3000 億印度盧比。除了經濟損失,保險公司還會失去一些業務,因為客戶感到不滿意。雖然許多保險監管機構已經定義了框架和流程來控制欺詐行為,但他們往往只是對欺詐做出反應,而不是採取主動措施來預防它們。傳統的方法(如迴圈列入黑名單的客戶、保險代理人和員工)並不能解決欺詐問題。

本文為大資料解決方案提出了一種解決方案模式,以本系列的第 3 部分中介紹的邏輯架構以及 第 4 部分 中介紹的複合模式為基礎。

保險欺詐是為了讓做出欺詐的當事人或其他關聯方獲得不正當或非法的好處的行為或疏忽。欺詐行為的種類包括:

  • 保單持有人欺詐和索賠欺詐— 在購買和執行保險產品時對保險公司的欺詐包括提出保險索賠時的欺詐。
  • 中介欺詐— 保險代理人、企業代理、中介或第三方代理人對保險公司或者保單持有人所做的欺詐。
  • 內部欺詐— 保險公司的董事、經理,或其他任何人員或辦公室成員對保險公司所做的欺詐。

目前的欺詐檢測流程

保險監管委員會已經建立了反欺詐政策,其中包括明確定義的欺詐行為監控流程、搜尋潛在的欺詐指標(併釋出列表)的流程,以及與執法部門協調的流程。保險公司配置了專門分析欺詐索賠的工作人員。

目前的欺詐檢測流程的問題

保險監管機構已明確定義了欺詐檢測和緩解的流程。傳統的解決方案使用的模型基於歷史欺詐資料、被列入黑名單的客戶和保險代理人,以及有關特定於領域的欺詐的資料。可用於檢測欺詐的資料被局制於給定保險公司的 IT 系統和一些外部源。

目前的欺詐檢測流程大多是手工的,只能處理有限的資料集。保險公司可能無法調查所有指標。通常很遲才檢測到欺詐,而且保險公司很難對每個欺詐案例都進行適當的跟進。

目前的欺詐檢測依賴於對現有欺詐案件的已知情況,所以每一種新型詐騙發生時,保險公司都不得不承擔第一次的損失。最傳統的方法在一個特定的資料來源內工作,無法容納不斷增長的各種不同來源的資料。大資料解決方案可以幫助解決這些挑戰,並在保險公司的欺詐檢測中發揮重要作用。

解決方案模式:入門

該解決方案模式基於儲存和探索複合模式。它集中處理資料的獲得並儲存來自企業內部或外部的不同來源的相關資料。在圖 1 所示的資料來源只是一個示例;領域專家可以識別適當的資料來源。

因為必須收集、儲存和處理來自多個來源的大量不同資料,此業務挑戰是大資料解決方案的良好候選場景。

下圖顯示瞭解決方案模式,它對映到了在 第 3 部分 中介紹過的邏輯架構。

圖 1. 入門解決方案模式

該圖顯示了邏輯層圖,此圖顯示了入門解決方案模式

點選檢視大圖

圖 1 使用以下資料提供者:

  • 外部資料來源
  • 結構化資料儲存
  • 經過轉換的結構化資料
  • 實體解析
  • 大資料瀏覽器元件

醫療保健欺詐檢測所需的資料可以從不同的資料來源和系統中獲得,比如銀行、醫療機構、社交媒體和 Internet 機構。這些資料包括來自部落格、社交媒體、新聞機構、各機構的報告,以及 X 光報告等來源的非結構化資料。更多示例請參見圖 1 中的資料來源層。利用大資料分析,這些不同來源的資訊可相互關聯和組合,並且被分析(在已定義規則的幫助下),以確定欺詐的可能性。

在這種模式中,所需的外部資料是從資料供應者那裡獲得的,他們貢獻經過預處理的非結構化資料,這些資料已被轉化為結構化或半結構化資料。在經過初始預處理後,這些資料被儲存在大資料儲存中。下一步是找出可能的實體,並從資料生成即席報告。

實體識別是在資料中識別命名元素的任務。識別分析所需的所有實體必須都被識別出來,包括那些與其他實體沒有關係的鬆散實體。實體識別主要由資料科學家和業務分析師執行。實體解析可以像根據資料關係和上下文識別單一實體或複雜實體一樣簡單。此模式使用了簡單形式的實體解析元件。

您可以簡單地將結構化資料轉換成最適合於分析的格式,並直接儲存在大資料結構化儲存中。

可以在此資料上執行即席查詢,以獲得相關資訊:

  • 給定的客戶、區域、保險產品、代理或審批人員在給定期間內的整體欺詐風險
  • 某些代理或審批人員,或跨保險公司的客戶過往的索賠檢查

顧名思義,組織一般採用這種模式開始使用大資料。組織採用探索式方法,根據可用的資料評估可以生成什麼樣的洞察。在這個階段,組織一般不會對高階分析技術進行投資,比如機器學習、特徵提取和文字分析。

解決方案模式:獲得高階業務洞察

這種模式比入門模式更高階。它在索賠處理的三個階段預測欺詐:

  1. 索賠已經解決。
  2. 索賠處理正在進行中。
  3. 剛剛收到索賠請求。

對於前兩種情況,可以批量處理索賠,而且可以啟動欺詐檢測流程,它可能是常規報告流程的一部分,也可以由業務請求啟動。第 3 種情況可以近實時地進行處理。索賠請求攔截器會攔截索賠請求,啟動欺詐檢測流程(如果指示器報告這可能是一個欺詐案件),然後通知在系統中識別的利益相關者。越早檢測到欺詐,風險或損失的嚴重性就會越低。

圖 2. 獲得高階業務洞察的解決方案模式

邏輯層圖顯示了用於獲得高階業務洞察的解決方案模式

點選檢視大圖

圖 2 使用:

  • 非結構化資料儲存
  • 結構化資料儲存
  • 經過轉換的結構化資料
  • 經過預處理的非結構化資料
  • 實體解析
  • 欺詐檢測引擎
  • 業務規則
  • 大資料瀏覽器
  • 對使用者的警告和通知
  • 索賠請求攔截器

在這個模式中,組織可以在分析之前選擇對非結構化資料進行預處理。

資料被獲取並按原樣儲存在非結構化資料儲存中。然後,它被預處理成可以被分析層使用的格式。有時,預處理可能會非常複雜和費時。您可以使用機器學習技術進行文字分析,Hadoop Image Processing Framework 對於處理影像很有用。最廣泛使用的技術是 JSON。經過預處理的資料隨後被儲存在結構化資料儲存中,如 HBase。

此模式的核心元件是欺詐檢測引擎,由高階分析功能構成,可以幫助預測欺詐。被明確定義並經常更新的欺詐指標有助於識別欺詐行為。下面欺詐指標可以幫助檢測欺詐,並且可以使用技術來實現打擊欺詐行為的系統。下面是常見欺詐指標的列表:

  • 保單生效後不久進行索賠。
  • 在處理索賠時發生嚴重核保失誤。
  • 被保險人在追求快速解決時具有明顯的攻擊性。
  • 被保險人願意接受小額賠償,而不是記錄所有損失。
  • 檔案的真實性值得懷疑。
  • 被保險人在背後償還貸款。
  • 所產生的傷害是不可見的。
  • 不存在已知傷亡的高價值索賠。
  • 個人叢集之間存在關係,包括保單持有人、醫療機構、聯營公司、供應商與合作伙伴。
  • 持牌及非持牌醫療服務提供者之間存在聯絡。

僅使用傳統方法不足以預測詐騙。使用者還需要使用社交網路分析來檢測持牌及非持牌醫療服務提供者之間的聯絡,並檢測保單持有人、醫療機構、聯營公司、供應商與合作伙伴之間的關係。驗證檔案的真偽,並找到個人的信用評分,這是用傳統方法難以完成的艱鉅任務。

在分析過程中,對所有這些指標的搜尋可能會在龐大數量的資料上同時發生。每一個指標都被加權。所有指標的加權總值表示預測欺詐的準確性和嚴重程度。

在分析完成後,可以向相關利益方傳送警報和通知,並且可以生成報表,以顯示分析結果。

此模式適合於需要使用大資料進行高階分析的企業,包括進行復雜的預處理,以利用先進的技術(如特徵提取、實體解析、文字分析、機器學習和預測分析)可以進行分析的形式儲存資料。這種模式不涉及採取任何行動或根據分析的輸出提供建議。

解決方案模式:採取下一個最佳行動

在關於獲得高階業務洞察的解決方案模式中所做的欺詐預測通常導致應採取特定行動,例如拒絕索賠,或暫緩賠償,直至收到進一步的澄清和資訊,或報告它,以採取法律行動。在這種模式中,為預測的每個結果定義了行動。這個行動對結果(action-to-outcome)的表被稱為行動決策矩陣

圖 3. 下一個最佳行動的解決方案模式

邏輯層圖顯示了用於獲得下一個最佳行動的解決方案模式

點選檢視大圖

圖 3 使用:

  • 非結構化資料儲存
  • 結構化資料儲存
  • 經過轉換的結構化資料
  • 經過預處理的非結構化資料
  • 實體解析
  • 欺詐檢測引擎
  • 業務規則
  • 決策矩陣
  • 資料探索工具
  • 對使用者的警告和通知
  • 索賠請求攔截器
  • 對其他系統和業務流程元件的變更和通知

通常可以採取 3 種行動:

  • 可以向利益相關者傳送通知,以採取必要的行動,例如,通知使用者採取針對申索人的法律行動。
  • 系統在採取進一步行動之前通知使用者,並等待使用者的反饋。系統可以等待使用者響應任務,也可以停止或暫緩索賠處理事務。
  • 對於不需要人工干預的場景,系統可以採取自動行動。例如,系統可以向流程傳送一個觸發器,以停止理賠程式,並將有關申索人、代理人和審批人的資訊通知給法律部門。

此模式適合於需要使用大資料進行高階分析的企業。此模式使用高階功能來檢測欺詐行為,通知並提醒相關利益方,啟動自動工作流,根據處理的結果採取行動。

形成大資料解決方案骨幹的產品和技術

下圖顯示了大資料軟體如何對映到第 3 部分中所描述的邏輯架構的各個元件。這些產品、技術或解決方案可以在大資料解決方案中使用;必須根據您自己的需求和環境來決定選擇用於部署的工具。

圖 4 顯示了大資料裝置,如 IBM PureData™ System for Hadoop 和 IBM PureData System for Analytics,它們跨越多個層次。這些裝置具有內建的視覺化、內建的分析加速器,以及單一系統控制檯等特性。使用裝置有很多優點。(請參閱 參考資料,瞭解有關 IBM PureData System for Hadoop 的更多資訊。)

圖 4. 對映到邏輯層次圖的產品和技術

邏輯層圖顯示了一些產品

點選檢視大圖

在欺詐檢測中使用大資料分析的好處

與傳統方法相比,使用大資料分析來檢測欺詐具有多種優勢。保險公司可以構建包含所有相關資料來源的系統。一個包羅永珍的系統有助於檢測不常見的欺詐案件。預測模型等技術可以深入分析欺詐例項,篩選明顯的案例,並參照低發欺詐案件執行進一步分析。

大資料解決方案還可以幫助建立整個企業的反欺詐工作的全域性視角。通過連結組織內的關聯資訊,全域性視角往往導致更好的欺詐檢測。欺詐行為可以在多個起源點發生:理賠、保險退保、繳費、申請新的保單,或者與員工相關的欺詐或第三方欺詐。各種來源的資料相結合可以實現更好的預測。

分析技術使組織能夠從非結構化資料中提取重要資訊。雖然大量結構化資訊儲存在資料倉儲中,大多數關於欺詐的關鍵資訊都是非結構化資料,比如第三方報告,它們很少被分析。在大多數保險機構中,社交媒體資料沒有被正確地儲存或分析。

結束語

利用基於保險行業中的識別欺詐用例的業務場景,本文介紹了複雜性各不相同的幾種解決方案模式。最簡單的模式解決來自不同來源的資料的儲存,並執行一些初步的探索。最複雜的模式涵蓋如何從資料中獲得洞察,並根據分析採取行動。

每一個業務場景都被對映到組成解決方案模式的相應原子模式和複合模式。架構師和設計師可以應用解決方案模式來定義高階的解決方案,以及相應的大資料解決方案的功能元件。

相關文章