社交資料在徵信領域的應用探索

DinK發表於2016-03-27

在WOT”網際網路＋”時代大資料技術峰會上，來自騰訊資料探勘高階工程師劉黎春做了以《社交資料在徵信領域的應用探索》為主題的演講，主要內容由社交徵信背景、騰訊社交網路資料、個體使用者畫像研究、社團圈子研究、模型建設及應用這五部分構成，下面我們就逐一為大家介紹各部分的內容。

社交徵信背景

劉黎春表示，徵信並不是一個簡單徵信評分的模型，而是由資料公司、徵信公司、徵信使用方三部分組成。資料公司就是採集或做一些資料的初步挖掘，這類公司可能會有特殊的資料來源，例如法院、公安等這些資料都是需要深入行業背景才能拿到。徵信公司是有一個產權聯絡，另外它也會向第三方一些資料公司去購買一些資料回來，豐富它資料的維度，並且基於這些資料去做一些徵信的事情，提供一些徵信級的解決方案。徵信使用方就是徵信的解決方案最後給到誰來用。一般來說我們的理解就是銀行和P2P的貸款機構。這三部分綜合起來，就形成了一個整體的徵信行業的產業鏈。

傳統徵信相關機構

美國著名徵信公司

國內徵信發展歷程

綜合以上四圖的資料來看，如果社交資料可以用到徵信中的話，是不是可以對央行的徵信系統做一個很好的補充呢？劉黎春表示，這是騰訊在做社交徵信專案時最開始思考的問題。社交資料非常龐大，但並不一定都是有效資料，還要看具體應用的業務場景是不是和資料有相關性，這些資料是不是真的能夠用到最後的模型或者演算法中去。這樣問題就接踵而來，社交資料與信用評級有關係嗎? 交易資料天然具備金融屬性,社交資料有嗎? 社交資料非結構化程度高,怎麼挖掘並有效使用?

騰訊社交網路資料

在談騰訊社交網路資料構成之前，劉黎春先介紹了傳統徵信的分析維度。其一是使用者的基礎資訊，如年齡、性別、職業、收入、婚姻狀況，工作年限，工作狀況等基本上和每家銀行或者每個做徵信的機構獲得的資料都差不多。其二是信貸情況，看使用者申請幾張信用卡，最近一個月的徵信報告被查詢的次數，因為我們大家都知道徵信報告被查詢的次數可以直接代表最近有沒有比較頻繁地做貸款的申請或者信用卡申請。如果最近的次數特別多，那說明這個人最近非常缺錢，可能就會影響信用，直接影響授信額度。

上圖是騰訊的資料現狀，包含了很多維度的資料，覆蓋的使用者數相對來說更加全面一些。

騰訊社交徵信SWOT分析

上圖為騰訊社交徵信SWOT分析，優勢、劣勢、機會、風險一目瞭然。有了這樣詳細的分析，做個人徵信是必然的事情，但做徵信之前要清楚的知道徵信物件是什麼樣子，所以開始著手做個體使用者畫像的研究。

個體使用者畫像研究

劉黎春表示，做個體使用者畫像研究遇到的挑戰主要有如下三方面：其一，如何充分利用騰訊各種豐富的資料資源及之間的聯絡？其二，如何使使用者畫像適應各種不同的應用場景？其三，如何高效的處理海量的使用者資料(超過10億的QQ使用者, 超過千億級別的各類日誌資料) ？面對這些挑戰，劉黎春給出來相應的解決方案如下：

1.針對不同的底層資料型別設計特定的挖掘演算法,挖掘使用者的行為特徵,形成底層標籤。綜合考慮不同資料來源的,形成更上層的抽象使用者標籤

2.建立完善的使用者畫像標籤體系結構,從不同維度、粒度對使用者進行描述。

3.搭建使用者畫像挖掘系統,基於大規模儲存和機器學習計算平臺,定期對全量使用者資料進行計算和挖掘,並提供使用者標籤的使用和查詢服務。

使用者畫像系統架構

使用者畫像文字挖掘系統

使用者畫像行業挖掘

使用者畫像挖掘結果

個人使用者畫像研究的結果就是把結構化資料，文字分類，LBS資料，社交網路傳播擴散這些挖掘之後形成一個比較完整的畫像，比如說人口的一些基礎屬性如年齡、家鄉、興趣等。同時也會對使用者婚姻狀況來做一個判斷。有了這些資料之後，就可以基於這些使用者資料去做很多社交徵信工作。

社團圈子研究

這裡說到的社團圈子其實就是QQ圈子，劉黎春表示，在2012年有一個社交網路的成果非常有影響力，那就是把挖掘出來的結果作用到整個前端的QQ使用者。具體案例就是如使用者的某個同事，你們並不是直接的好友關係，但騰訊會知道這期間的潛在關係，或自動分到同事分組並同時加上備註。這個結果在當時引起了很大爭議有人覺得對於他們找到一些潛在好友提供便利，但有些人覺得觸碰了他們的隱私。

QQ圈子除了它自己本身之外，也會把它作用到很多場其他景裡去，比如說用它來挖掘學歷的資訊，基於QQ圈子好友的備註，如說很多人把這個使用者備註成一個本科同學，那系統可能會判斷我的學歷是本科學歷。這樣的資料騰訊是拿一些真實的資料做過驗證，資料覆蓋率大概能覆蓋74%，準確到90%以上。

社交網路拓撲的應用

社交網路拓撲的應用無外乎有兩種，其一是是判斷拓撲的型別，其二是研究這些型別在這個關係鏈裡的影響力。比較有標誌性的拓撲型別有三角形和心型兩種結構。

模型建設及應用

那麼要如何把個體使用者畫像和社團圈子的研究，用到模型中去呢？劉黎春表示，首先要做的事情就是先建立一個社交模型，但在建模之前要做一些基本假設，如兩個QQ號碼是屬於同一個人的話有一些比較明顯的特徵，第一個他會經常在同一個裝置裡面登陸，或者在同樣的IP裡面登陸，或者它有其他特徵的表現等等。最後把這些特徵用來建立模型，去判斷說某幾個QQ號碼背後對應的到底是不是同樣一個人，這個的準確率大概是85%，覆蓋率是75%左右。

變數衍生與模型結果

模型整體效果

微粒貸應用

最後劉黎春介紹徵信模型運用到微粒貸中的具體應用流程，上圖為產品截圖。開啟QQ如果能夠看到微粒貸入口，說明是在騰訊篩選出的白名單裡面。只要你點選了申請開通，它會馬上給你算一個額度出來，如果你要借款，這個也是非常快，只要你繫結了你的銀行卡，應該在兩分鐘之內會把你的借款打到你的賬上。其實這個相對於去傳統銀行借款的話，它這個效率是有一個質的飛躍。但其前臺產品表現得越簡單，它背後的技術可能是越複雜的技術。徵信模型作為微粒貸背後技術就是為了篩選具有良好信用的使用者，為這些使用者提供貸款服務。

作者：
劉黎春，騰訊資料探勘高階工程師，社交網路事業群資料探勘團隊負責人，第一代QQ音樂推薦系統架構師，騰訊客戶生命週期管理體系搭建者。多年致力於資料探勘技術與業務結合，在大資料分析和挖掘、網際網路徵信等領域有著豐富的實戰經驗和專案管理心得。目前專注於網際網路徵信、使用者基礎畫像、推薦系統和文字挖掘。

雲資料庫在水利領域的應用與探索
2022-04-18
資料庫
騰訊安全和安徽徵信達成戰略合作，共同探索資料技術在智慧金融、智慧政務等領域的應用
2020-07-14
ChatGPT在工業領域的研究與應用探索-資料與工況認知
2023-04-28
ChatGPT
人工智慧在財富領域的應用與探索
2019-02-23
人工智慧
ClickHouse在大資料領域應用實踐
2022-02-25
大資料
Graph Embedding在人力資本領域的應用
2019-12-16
ChatGPT在資訊保安領域的應用前景
2023-02-10
ChatGPT
人工智慧在辦公領域的應用及API資料返回
2023-05-05
人工智慧API
StarRocks在支付對賬領域的應用
2023-11-30
可口可樂在人工智慧和大資料領域的7項應用
2018-04-04
人工智慧大資料
中電金信：向“新”而行—探索AI在保險領域的創新應用
2024-06-26
AI
圖資料庫在主機安全的應用探索
2024-01-18
資料庫
未來大資料的主要應用領域包括哪些
2019-05-11
大資料
深度學習在醫療領域的應用
2019-02-27
深度學習
Mock技術在測試領域的應用
2020-04-06
Mock
「GIS基礎」JSON資料格式在GIS領域的運用
2020-10-19
JSON
騰訊遊戲探索“觸覺反饋”技術在無障礙領域的應用
2021-12-03
遊戲
串聯諧振在各個領域的應用
2024-01-26
人工智慧在材料領域的應用有哪些？
2023-09-25
人工智慧
Flink 在人工智慧領域的應用實踐
2019-11-28
人工智慧
影像識別（CV）在房地產領域的應用
2019-08-22
區塊鏈技術在金融領域的應用
2019-07-06
區塊鏈
nodejs應用領域
2024-09-20
NodeJS
Linux 應用領域
2021-05-21
Linux
大資料文摘：細數機器學習在金融領域的七大應用
2019-07-04
大資料機器學習
阿里雲 Serverless 非同步任務處理系統在資料分析領域的應用
2022-07-28
阿里Server非同步
大資料應用：這5個領域必不可少！
2018-12-27
大資料
挖掘空間資料要素典型領域應用場景
2024-10-15
【AI in 美團】深度學習在文字領域的應用
2018-06-25
AI深度學習
實景三維在園區管理領域的應用
2024-04-04
區塊鏈在人工智慧領域的前沿應用
2023-12-09
區塊鏈人工智慧
在銀行領域證件識別儀的應用
2020-02-28
智慧影片分析技術在安防領域的應用
2019-05-27
Facebook在NAS領域的輕量級網路探索
2020-10-10
IBM：人工智慧在人力資源領域的應用案例（附下載）
2023-11-06
IBM人工智慧
探索英偉達在中國高階ADAS領域的領導地位
2024-03-19
網路安全應用領域有哪些?常見應用領域總結！
2021-11-09
淺談人工智慧在流媒體領域的應用
2018-11-09
人工智慧
深度學習在自動駕駛感知領域的應用
2019-03-06
深度學習自動駕駛

社交資料在徵信領域的應用探索

相關文章