長久以來,我國徵信市場都是以央行為主導的單一格局。央行徵信系統主要收集以銀行信貸資訊為核心的企業和個人資訊,截至2015年4月底,該系統收錄自然人8.6億,其中有信貸記錄的3億人,收錄企業及其他組織近2068萬戶。

所以,不管是在使用者的覆蓋面還是資料的多樣性上,央行徵信系統都有很大的侷限性。如何滿足其他沒有徵信記錄的5億多人的金融需求?這便是大資料徵信所覬覦的市場機會。

傳統信用評估模型是根據一個人的借貸歷史和還款表現,通過邏輯迴歸的方式來判斷這個人的信用情況。而大資料徵信的資料來源則十分廣泛,包括電子商務、社交網路和搜尋行為等都產生了大量的資料。

這些資料在信用評估中的效用究竟如何?大資料徵信是言過其實,還是真的風控神器?群雄逐鹿徵信市場,誰能成為最後的贏家?從金融服務到生活服務,中國的個人徵信機構究竟有何“野心”?

帶著以上問題,《第一財經日報》於近日專訪了芝麻信用的總經理胡滔、騰訊徵信總經理吳丹、FICO中國區總裁陳建、京東金融消費金融總監許凌、芝麻信用首席科學家俞吳傑、美國Zest Finance前模型組創始人顧凌雲等。

一. 解碼大資料徵信:徵信市場新格局

個人徵信牌照的發放久拖未決,但央行於近日率先發布了一份《徵信機構監管指引》(下稱《指引》)。業內普遍認為,該檔案的釋出正是為了給個人徵信牌照的下發鋪路。

根據《指引》,監管部門對於申請牌照的機構提出了多項具體要求,包括個人徵信機構設定保證金制度、股權變革的制度化管理等,以規範個人徵信這個新興行業的發展。

但事實上,個人徵信市場的參與者除了首批八家申請徵信牌照的機構外,以拍拍貸、積木盒子為代表的P2P平臺,以京東金融、宜信為代表的網際網路金融公司,以FICO為代表的第三方機構均開始利用既有的資料和技術佈局大資料徵信業務。

徵信市場新格局

今年1月5日,央行下發《關於做好個人徵信業務準備工作的通知》,個人徵信業務正式“開閘”。騰訊徵信、芝麻信用、深圳前海徵信、鵬元徵信、中誠信徵信、中智誠徵信、考拉徵信、北京華道徵信獲准開展個人徵信業務準備工作。

其中,背靠螞蟻金服的芝麻信用和騰訊旗下的騰訊徵信因其使用者覆蓋面廣、資料規模龐大、技術實力雄厚而最具競爭力。另外,前海徵信因背靠綜合金融集團——中國平安也被視為有力的競爭者。

此外,考拉徵信則彙集了拉卡拉平臺上進行信用卡還款、轉賬、公共繳費等個人使用者資料。華道徵信的資料則主要來自其兩家股東:新奧資本握有大量的居民燃氣資料;銀之傑旗下的億美軟通是中國三大電信運營商資深的戰略合作伙伴。

而另外三家機構中,中誠信徵信和鵬元徵信的大股東均是老牌的企業徵信公司,以企業信用評級業務起家。中智誠徵信是民營第三方徵信公司,以“反欺詐”業務為主。

其實,除了上述八家首批獲准開展個人徵信業務的機構外,不少擁有海量資料和技術基礎的公司都在暗暗佈局大資料徵信市場。另據媒體報導,包括京東金融、百度金融、小米、宜信等30多家企業均有意申請第二批個人徵信牌照。

以京東金融為例,除了盤活集團內的資料資源外,京東還於今年6月宣佈投資美國的Zest Finance。這家由Google前副總裁創辦的網際網路金融公司主要利用機器學習演算法和資料技術幫助使用者做出更精準的金融風控及營銷決策。

據瞭解,雙方宣佈成立一家名為JD-Zest Finance Gaia的合資公司,旨在利用Zest Finance在大資料探勘和處理方面的技術構建京東自己的信用評估體系,目前Zest Finance的技術專家已經到位。

另一家大資料徵信市場的有力競爭者——宜信旗下的至誠徵信也在今年6月釋出一款針對P2P機構、小額信貸機構和銀行信貸部門的風控產品,包括信用評分、個人借款資料、個人風險名單資料三塊內容。

此外,包括拍拍貸、積木盒子在內的P2P借貸機構也利用過去幾年所積累的資料建立自己的信用評估體系。以拍拍貸為例,它於年初推出了基於大資料的風控模型——“魔鏡系統”。

除了那些手握資料資源的公司外,圍繞大資料徵信領域的第三方技術和服務機構也開始湧現。例如,專注大資料探勘的“百分點”、在在資料來源上層完成資料分析和信用評估的“冰鑑科技”、“閃銀”等。

最終僅剩兩三家?

但值得注意的是,與其它很多行業不同,徵信市場的“容量”卻十分有限。

對比美國,1960年代末美國的徵信公司曾一度多達2200家,但隨著行業不斷髮展和整合,如今已減少到400家左右。其中,艾可飛(Equifax)、益百利(Experian)和全聯(Trans Union)三大巨頭便佔到了90%的市場份額。

芝麻信用曾在內部提到,當下大資料徵信還處於第一階段,即個人徵信機構跑馬圈地、百花齊放;而到了第二階段,徵信行業或出現大規模併購,最大的兩三家公司將佔據市場60%以上份額或者更多,其他幾家共享細分市場。

這個預判基本已經成為行業共識。

顧凌雲認為,中國的徵信市場在三到五年之內不會一統天下,原因是因為到目前為止中國徵信市場還處在第一步,也就是資料來源整合這一步。但是在今後四五年之後應該會有兩到三家成為最終的贏家。

許凌認為,大資料徵信需要前期投入巨大的人力、物力,不僅週期長且回報慢。尤其是個人徵信這部分,對於資料、資金、技術,以及場景都有很高的要求,最終只會有兩三家主導市場。

眼下國內的個人徵信市場剛剛放開,還處於群雄逐鹿的階段。儘管首批僅有八家機構申請牌照,但在業內人士看來,相比牌照,資料和技術才是個人徵信領域更為關鍵的門檻。

平安證券在一份報告中稱,根據徵信行業的產業鏈,個人徵信公司經營成功的關鍵在於:資料來源的範圍和準確性、資料處理能力、資料產品是否能夠滿足客戶要求、是否具有多樣性。

目前來看,除了獲得牌照的機構之外,掌握資訊搜尋和網頁瀏覽資料的百度、整合了電商、金融、生活服務資料的京東、積累了九年資料的網際網路金融機構宜信、以及正在積極佈局中國大資料徵信市場的FICO都是有力的競爭者。

二. 解碼大資料徵信:大資料徵信的“是與非”

1463494341-7099-20160515143348-2297

傳統信用評估模型是根據一個人的借貸歷史和還款表現,通過邏輯迴歸的方式來判斷這個人的信用情況。而大資料徵信的資料來源則十分廣泛,包括電子商務、社交網路和搜尋行為等都產生了大量的資料。

大資料徵信可以通過我們在網際網路上留下的這些“足跡”清晰地描繪出一個人,但如何把控資料來源的“量”與“度”,各家機構還在不斷嘗試。更重要的是,最終繪製出的人物“肖像”與個人信用究竟有多大的關聯度,至今仍存有爭議。

此前亦有接近監管部門人士對《第一財經日報》記者表示,個人徵信牌照遲遲未能落地,其原因之一也在於監管部門對於大資料徵信的商業化應用存有疑慮。尤其,以人臉識別為代表的關鍵技術的可靠性還有待進一步檢驗。

何為大資料徵信?

在FICO中國區總裁陳建看來,徵信的本質就是採集和記錄信用資訊並在整理加工後提供給決策者,而如今,得益於大資料、雲端計算、人臉識別、深度演算法等技術的進步,徵信有了更廣泛的意義和用途。

“只要對消費者的特徵描繪和風險判斷有顯著作用的就可以叫徵信。”陳建認為, 現在一切資訊皆可以成為信用資料,經過分析後用於證明一個人或企業的信用狀況。因為資料覆蓋廣、維度多,因此形成了廣義的徵信,也就是大資料徵信。

陳建表示,有價值的大資料具備幾個因素:第一要覆蓋面廣,使用者足夠多,例如銀聯、電信的資料;第二維度要有效,能夠有效轉為結構化的資料,例如電商的資料;第三資訊要穩定。

不過,對於這種日益崛起的徵信新業態,今年7月在上海外灘舉辦的“2015上海新金融年會”上,央行徵信中心副主任王曉蕾直截了當地提出了疑問,“我不知道你們說的‘徵信’是什麼”?

央行的徵信系統是一個“放貸人之間的資訊共享資料庫”,主要採集的資料位身份資訊、信貸資訊、非金融負債資訊三類,以及部分公共資訊。因此,王曉蕾對於徵信的基本定義為,“從放貸人那裡採集借款人資訊”。

而另一個“糾結”的概念在於,王曉蕾認為,放貸機構之“徵信”是放貸機構基於內部資訊的風險管理過程,而徵信行業之“徵信”是為放貸機構的風險管理提供外部資訊支援的活動,徵信機構應該是一個純粹的獨立第三方。

如果按照這個界定,我們現在所談到的大資料徵信跳脫了傳統“徵信”範疇內。不再侷限於金融屬性的資訊,並且也打破了“採集者與資訊產生沒有任何關係”的獨立第三方原則。

例如芝麻信用、前海徵信、騰訊徵信,一方面它們的資料來源目前還主要來自母公司阿里、平安、騰訊,而另一方面,它們的兄弟公司又涉足放貸業務,例如阿里小貸。

儘管有關大資料徵信的定義和效用仍爭議不斷,但對於既無法接入央行徵信系統又面臨快速發展的網際網路金融行業而言,利用大資料來幫助判定風險、開拓業務已是必然的選擇。

從應用範圍來看,目前大資料徵信已從金融業務向生活服務蔓延。其中,最核心的兩個價值就是:防範欺詐風險和信用風險。簡單來說就是:既要證明“你是你”,還要描述出“你是什麼樣的人”。

如何證明“你是你”?

無論是在傳統金融領域,還是網際網路金融領域,給客戶做信用評估的前提是必須知道這個人就是他自己。所以,如何利用證明“你是你”是大資料徵信首先要解決的問題。

尤其,隨著越來越多的金融業務網際網路化,“反欺詐”面臨的挑戰也日益增大。“身份認證”的重要性在各項監管檔案中反覆被強調,而各家機構也在不斷探索如何利用新的技術在網上實現身份的核實。

其中,在指紋、虹膜、人臉識別等一系列生物識別技術中,人臉識別因其技術的成熟度和準確率,以及使用的便捷性而被進一步普及。包括騰訊徵信、芝麻徵信在內的多家個人徵信機構都有組建自己的人臉識別技術團隊。

此前,在騰訊徵信的北京媒體溝通會上,為騰訊財付通、微眾銀行、騰訊徵信等提供影像和模式識別技術支援的優圖團隊也向大家展示了“人臉識別”在“反欺詐”方面的應用,即如何證明“你是你”。

根據現場的演示,在上傳身份證照片、自拍照片並與公安部的資訊進行比對之後,“人臉識別”的另一關鍵步驟是活體檢測,通過讀取隨機的數字串,分析聲音和脣語等資訊來防範有人用視訊、照片等方式來仿冒使用者。

據瞭解,在今年國際權威的人臉識別資料庫LFW上,騰訊優圖團隊在人臉驗證測試中達到了 99.65%的準確率。目前,微信的“人臉識別”技術已經在騰訊徵信、微眾銀行、微證券開戶等場景中開始試用。

儘管人臉識別的準確率已經達到較高水平,但該項技術的商業化應用才剛剛起步,它的有效性和安全性仍備受質疑。

優圖團隊研發總監黃飛躍也表示,該技術現在還不能說100%的成熟,而是適用於某些特定的應用環境中。其中,金融領域的身份核實條件較好,由於使用者往往是為了通過驗證(例如支付)所以比較配合。

芝麻信用首席科學家俞吳傑表示,整個的反欺詐產品從身份認證到資訊驗證再到網路關聯,每一步的技術含量非常高。以身份認證為例,現在已有有很多的途徑,比如資訊交叉比對、人臉識別技術、KBA問答認證等。

他以網路關聯技術為例說明到,它能把所有出現過違約行為的身份,手機,裝置等關鍵點都在風險庫裡面分門別類的保留下來,我們可以通過一層或者多層關聯找出所有的風險點供合作伙伴參考,這對技術和硬體要求都是非常高的。

爭議大資料徵信

解決了“身份認證”的問題,接下來就要評估你的信用,即描述出“你是什麼樣的人”。

在關於大資料徵信的文章中,我們經常可以看到一些案例,如經常半夜上網的使用者可能被認為沒有穩定的工作而降低信用評分,買雙開門冰箱的使用者可能因為有家庭而信用評分較高,微博更新頻繁的使用者可能因為社交活躍而信用評分較高等。

“這些考量因素被過度放大了,也許這只是使用者個人習慣而已。但每一個因素與個人信用的相關性有多大?我們還無法完全解釋,尤其當資料來源不足夠豐富時,這些評判便存在欠缺。”芝麻信用的技術專家景藝亮表示。

冰鑑科技CEO顧凌雲在回國前曾領導並開發了Zest Finance前四代風控模型,在他看來,大資料徵信的核心並不是對某個變數極其依賴,而是把很多個都只有微小影響的變數通過非線性的演算法整合在一起,從而使模型的整體表現更好。

“大資料其實並不一定就是資料量本身大,我們講求的是變數涵蓋的資訊緯度要多和均衡,然後才是能夠通過淺度學習和深度學習等多種複雜的演算法把這些變數更有效地柔和在一起。”他表示。

王曉蕾認為,網際網路記錄了借款人以前不可記錄的行為,獲得了以前無法、或成本很高的資料,有利於為放貸人瞭解借款人是誰、有沒有還款能力和還款意願提供了新的渠道和方法。但是,相關的資訊究竟如何使用有待進一步研究驗證。

王曉蕾引用2014年美國政策與經濟研究委員會(PERC)的一項研究結果稱,非金融資訊在信貸決策中的作用有限。例如,研究就初步發現,社交資訊對於判斷借款人的還款意願和能力暫無預測力。

“而諸如水、電、煤、有線電視、手機等非金融資訊納入徵信系統,顯著地提高了薄信用檔案人群的信貸獲得能力,但對於厚信用檔案人群而言邊際作用不大。”她表示。

“只有好樣本,沒有壞樣本是無法建立有效的信用評估機制。” 宜信至誠徵信的董事總經理趙卉表示,電商、支付、社交等資料只能作為信貸稽核的參考值,而貸後資料才是強引數。

對於這種論斷,網際網路公司們顯然是不贊同的。

騰訊徵信總經理吳丹告訴記者,從這段時間內測的結果來看,在模型中加入社交資料以後,對它的風控能力有20%—25%的提升,尤其在小額貸款領域。因為,通常一筆幾百塊的借款,違約發生的原因不在於借款人的還款能力而是意願。

俞吳傑表示,通過大量的研究證明,人的行為資料和他的信用有直接關聯,因為行為很難撒謊。從這段時間公測的結果來看,使用者的芝麻分越高,其貸款的違約率越低,二者呈單調、線性的關係,這也證明了芝麻分在信用評估上的有效性。

不過, 僅僅依靠網際網路上的資料並不足以建立一個強大的信用評估體系。顯然,所有大資料徵信的市場參與者都深知這一點。“在未來,把傳統資料和創新資料結合到一起,一定是我們要到達的終點。”芝麻信用的總經理胡滔如此總結到。

顧凌雲告訴記者,風控模型本質上還是對一個人金融還貸能力的預測和評估,所以,儘管Zest Finance大量採用非傳統的信用資料,但在大部分的風險評估模型中,傳統的信用資料(銀行信貸資料)依然佔有一定的比重,平均也在40%左右。

三. 解碼大資料徵信:誰會成為中國版“FICO”

1463494340-8818-20160515143745-2097

大資料徵信匯出產品的方式之一是構建一個可被廣泛採用的信用評分體系,而從國外的經驗來看,通過評分而不是資料包告的方式呈現徵信結果,也是一個解決隱私保護問題最好的途徑。

因此,目前多家機構都率先推出了各自的信用評分體系。例如,芝麻徵信的“芝麻分”、華道徵信的“豬豬分”、拉卡拉徵信的“考拉分”、前海徵信的“好信度”、騰訊京東金融的“白度”、拍拍貸的“魔鏡分”、騰訊的信用星等。

從呈現方式來看各不相同,例如,“芝麻分”的範圍在350分到950分之間,分數越高代表信用程度越好;“白度”則是從0到100度;騰訊的信用評分則沿用QQ體系的習慣,用星級而非數字體現,七顆星為最高信用級別。

但比FICO“野心”更大的是,中國的個人徵信機構正試圖把信用評分體系的應用範疇從金融領域擴充套件到生活領域,從租車、租房,到婚戀、求職等等。甚至,它們希望從改變大眾對信用的認知到提升社會的信用體系。

誰能打破資料孤島

在談及徵信業務的發展時,大部分接受《第一財經日報》採訪的人士都提到了FICO分。儘管中美兩地的徵信市場存有差異,但像FICO一樣形成一種被普遍採用,並具有行業標準價值的信用評分體系卻是各家徵信機構都在努力的方向。

事實上,作為美國著名的個人消費信用評估公司,FICO本身並非一家徵信公司,而是提供決策和分析管理技術的第三方服務機構。由於美國三大信用局都使用FICO分,每一份信用報告上都附有FICO分,以致它幾乎成為信用分的代名詞。

FICO中國區總裁陳建在接受本報專訪時表示,中國不缺資料,不管是阿里的電商資料,還是騰訊的社交資料都是可靠、大量且真實的,對於刻畫消費者的特徵、風險有很好的作用,但是目前中國還沒有除央行以外很好的評分體系。

在他看來,中國建立一個全民評分體系的挑戰在於:個人徵信市場剛剛放開,很多資料來源之間還是一個相對封閉的“孤島”,例如傳統金融機構與網際網路公司之間是基本隔離的兩套體系,每一家網際網路公司之間又是各自獨立的一套體系。

由於“資料孤島”的存在,儘管現中國已經出現了很多信用評分體系,但距離一個能夠覆蓋全民的,被普遍認可的標準分還有不小的差距。那麼,顯而易見的是,誰能率先打破資料割裂的狀況,誰就有望成為最終的那兩至三家勝出者。

所以,眼下各家機構除了努力盤活自身的資料資源,也在積極地尋求外部資料來源。這既是徵信業務本身的需要,更是中長期的戰略需求。

以芝麻信用為例,目前其資料來源包括阿里體系內的電商交易資料、網際網路金融資料,集團體系之外的公安網、最高法、工商、教育部等公共機構以及合作伙伴資料,以及使用者上傳的資料等。

而騰訊徵信方面,除了擁有騰訊8億QQ賬戶、超過5億的微信賬戶、以及超過3億的支付使用者以及其他多種服務上聚集的用和社交資料外,騰訊也不斷利用在基金、理財、貸款、支付等領域的業務整合更多的資料資源。

但由於它們的兄弟機構多有涉略信貸或相關業務,例如阿里小貸、微眾銀行等,因此不少業內人士憂慮,這種既當裁判員又當運動員的做法可能在未來整合資源的過程存有障礙。

而FICO正是瞄準了這個“空隙”。作為信用評分領域的標杆企業,儘管FICO在中國缺少資料資源,但它希望利用自己多年積累的“獨立第三方”服務機構的口碑,通過技術優勢另闢蹊徑、殺出重圍。

據瞭解,FICO已在內部成立了網際網路金融事業部,專注開發適用於中國市場的大資料徵信產品。它希望通過“雲端計算”技術在“雲端”建立一個資料共享機制,打通“資料孤島”。

從金融到生活場景

要形成一套具有行業標準價值的信用評分體系,除了資料來源要足夠豐富和多元,更重要的是它必須被廣泛的採納和使用。

根據騰訊徵信總經理吳丹的判斷,未來一兩年裡,越來越多的金融產品會往線上遷移,向著快速便捷的方向發展,從國外和過往的經驗來看,越是便捷的產品面臨的風險越大,尤其是欺詐風險。

從各家徵信機構披露的進展來看,大資料徵信的產品主要可分為兩大類:反欺詐產品和信用評估產品。而適用範圍則是從商業銀行等傳統金融機構,到P2P等網際網路金融公司,甚至生活類的各種場景。

在銀行合作方面,目前芝麻信用與北京銀行信用卡中心、騰訊徵信與廣發銀行信用卡中心的合作均已展開,商業銀行希望通過引入更多元的信用評估機制來刪選客戶。

此外,涉足信貸業務的P2P平臺、消費金融公司對大資料徵信產品也有著強烈的需求。例如,P2P平臺積木盒子的消費信貸產品“讀秒”,面向大學生群體的趣分期等都對接了芝麻信用,對於每位借款人,芝麻徵信都會給出一個信用評估結果。

前海徵信也在不久前上線了針對P2P機構的三大系列、十款徵信產品,並於陸金所聯合推出了P2P行業的“人民公社”,為P2P平臺提供獲客、增信、產品設計、徵信、系統平臺、催收等服務。

但與專注於金融領域的FICO分不同,國內的機構一開始便把信用評分體系的適用範圍放寬到了衣、食、住、行的生活場景中。

騰訊徵信希望把個人信用與商業、生活、住房、消費等相結合,而芝麻分的應用場景也已經延伸至神州租車、一嗨租車等租車網站,全國6千多家酒店,簽證服務,甚至婚戀網站。

今年5月,考拉徵信也聯合了嘀嘀叫車、愛大廚、E袋洗、e保養等眾多商家開展名為信用圈的活動,希望把考拉分覆蓋到衣食出行、居家養生、愛車保養等多個領域。

芝麻信用首席科學家俞吳傑認為,資料的應用有兩個方面,一個是偏好,一個是信用。當下,在網際網路革新商業的這個過程中,資料可以幫助商業機構更好的進行決策與轉型。不過,把具有強金融屬性的信用評分體系應用於生活場景,這在其他國家並沒有先例。

據瞭解,目前信用分從模型開發的樣本選擇,特徵選擇,到最後的效能評估,都有一套非常完整的,跟金融和徵信密切相關的體系。“它在生活場景中是否有用?”這也是芝麻信用的科學家們所擔心的問題。

據俞吳傑介紹,經過了半年的測試和大量的研究表明,芝麻信用分對使用者有較好的分辨能力。“如果一個人有持續的、良好的借貸還款行為,那麼他在其他各個場景當中都會有類似的延續性、慣性在裡邊。”

在冰鑑科技CEO顧凌雲看來,大資料就是解決傳統資料倉儲所不能解決的問題,實現一切皆可資料化、一切皆可量化、一切皆可預測。按照顧的邏輯,隨著大資料探勘和分析能力的進步,它可應用的範圍還將越來越廣。

從各家機構的發展規劃來看,除了通過類似生活場景的開拓與傳播增加個人徵信的適用範圍外,它們更大的“野心”在於,從改變大眾對信用的認知到提升社會的信用體系。