這是之前參加某次比賽的成果,在此和大家分享,歡迎對資料感興趣的朋友多指點。
問題背景
網際網路金融2007年進入國內,2013年得到了蓬勃的發展。與此同時,也出現了很多問題平臺諸如提現困難、老闆跑路、停業等。截止2016年3月,在國內近4000家P2P平臺中,問題平臺比例已接近40%,投資者的資金難以得到保障。投資者希望知道自己的資金放在哪裡最安全?投到哪個平臺最有安全保障?這正是我們產品要解決的核心問題,客觀精確地對P2P平臺進行風險量化。
我們對出現問題的P2P平臺做了分析,可能的原因歸結為兩條:
- 先天基因能力不足:如創始團隊缺乏過硬技術與運營經驗、註冊資金過少難以承受突發危機等;
- 後天發展存在問題:如過分抬高利率導致難以向投資者兌現、過度追求利潤而忽視了風險控制等。
根據以上的分析,我們選取以下四大類的特徵作為平臺風險的量化依據,包括靜態特徵與動態特徵兩部分。其中靜態特徵對應於平臺先天基因,包括平臺的基本屬性,例如註冊資金、所在城市、擔保機構等;動態特徵對應於平臺的後天發展,包括平臺的各項指數、新聞輿情、使用者評論等資訊。
系統架構
下面是我們的系統架構,首先使用網路爬蟲獲取多源異構資料,解析得到結構化資料。通過資料清洗將結構化資料整理成我們的資料資產。在此基礎上我們使用文字處理、主題模型、知識圖譜、情感分析等技術分析資料資產,挖掘其中的內在規律。之後我們提出核心模型,OMNIRank,對各個P2P平臺進行風險量化,形成知識供投資者決策。最後,我們將資料分析、模型量化的結果進行視覺化,為投資者提供友好的互動介面。
資料來源選擇
為了全面獲取各個P2P平臺的資訊,我們選擇了客觀的新聞門戶、主觀的民意評論、權威的網貸社群和平臺官方平臺網站作為資料來源,從各個維度瞭解平臺,為後續分析打下基礎。
資料獲取
我們基於Scrapy開發了爬蟲框架OMNISpider,它可以:
- 分散式可擴充套件:整合Redis、Hadoop,部署於上海交通大學網路資訊中心,支援更多資料來源的併發爬取;
- 靈活配置:通過修改配置檔案即可新增新的任務或更新已有任務,無需重構程式碼。
只需簡單的配置,既可以通過排程、爬取、解析、儲存模組在短時間內爬取海量的多源異構資料。
資料清洗
下圖是我們的資料清洗過程。我們對爬取的結構化資料進行了資料去重、空值處理、資料去噪、格式統一、對齊融合。
資料資產
經過資料的清洗與融合,我們得到了資料資產。據不完全統計,我們的資料資產包括27萬餘條新聞、8萬多條P2P相關的微博和評論、3050家P2P平臺的基本資訊、3年來各平臺指數月評級資料。為了持續地擴充資料資產,我們把資料存放在Hadoop分散式檔案系統(HDFS)中。
資料分析
在此基礎上,我們希望進一步得到與平臺風險有關的資訊。首先是文字處理,使用分詞技術對新聞文字、使用者評論文字等進行分詞與詞性標註,用Word2Vec技術將詞語訓練為高維向量,從而更好地表示地詞語間的相互關係以及其中蘊含的語義。
在理解文字的基礎上,我們使用LDA模型對新聞進行處理,生成5個主題,每個主題取權重前7的詞語作為關鍵詞。通過各個平臺在不同主題上的新聞分佈規律和變化趨勢,我們可以對平臺進一步地理解,並瞭解整個行業的最新熱點。
我們對語義資訊、主題資訊進行整理,經過命名實體識別、關係抽取、開放域知識提取技術,形成了一個包含1萬多個結點的知識圖譜。為了提供更快的查詢服務,我們將它存在圖資料庫中。投資者可以進行知識探索,更加全面的瞭解各平臺、人員、職位、地理分佈之間的聯絡。
為了更進一步理解平臺口碑,我們對新聞以及使用者評論資料做情感分析,判斷出整個行業,以及各個平臺的輿論傾向,並以天為粒度進行統計,便於投資者全面瞭解行業,進行投資決策。
OMNIRank模型
經過以上資料資產的準備及探索分析,我們提出我們的核心模型OMNIRank,一個對P2P平臺進行風險量化,為投資者提供投資決策的模型。Google開發了人工智慧AlphaGo。它是一個會下圍棋的人工智慧。它採用全域性特徵和區域性特徵結合的思想,主要方法是深度神經網路。
OMNIRank是一個對P2P平臺風險量化的人工智慧,它的本質是一個深度神經網路。模型輸入5大類共118個特徵,包含全域性的靜態特徵、區域性的動態特徵。結合各個特徵特點及神經網路模型的優勢,我們設計了OMNIRank深度神經網路:
- 使用多層神經網路(MLP)處理靜態平臺屬性特徵;
- 使用長短時記憶元(LSTM)處理動態平臺指標時間序列;
- 使用卷積神經網路(CNN)和LSTM處理新聞、評論等文字資料。
就像AlphaGo可以進行自我對弈一樣,OMNIRank可以通過反饋迴路自我學習,不斷提升模型的能力。
下圖展示了OMNIRank模型對平臺風險量化的效果。我們在近半年的資料集上進行了驗證,使用兩個指標對模型效能評估:準確率和AUC值。其中準確率表示模型把平臺分類正確的比例;AUC是模型對正負樣本區分程度的量化評估。準確率與AUC值越高,表示模型效果越好。可以看到,半年來,模型對平臺判斷的準確率與AUC值呈上升趨勢,並且在最近的一個月(2016年4月)的評估中,準確率達0.85,AUC值達0.9以上。
為了更直觀地呈現模型效果,我們展示了OMNIRank模型對正常平臺和問題平臺的風險辨識。OMNIRank對一個平臺評分越高,表示這個平臺越可靠,風險越低。下圖是2016年4月對各個平臺的評分分佈,正常平臺集中在1附近,問題平臺集中在0附近,可見OMNIRank成功地將問題平臺與正常平臺區分開。
我們將OMNIRank與其他機器學習演算法,包括邏輯迴歸(Logistic Regression)、隨機森林(Random Forest)、支援向量機(SVM)進行了對比,對比結果如下圖所示。我們發現,比起其他模型,OMNIRank可以更加顯著地區分正常平臺和問題平臺,它具有更強的能力識別出問題平臺。因此OMNIRank對平臺風險的量化比傳統模型更加可靠。
OMNIRank是如何幫助投資者選擇投資平臺的呢?我們每個月使用OMNIRank對平臺風險進行量化預測,並根據量化結果對平臺排名,排名越靠前表示該平臺下個月出現問題的概率越低。之後計算在不同排名區間的平臺,在下個月實際出問題的比率。我們發現,半年來排名前100的平臺沒有出現問題,這給投資者提供了一個安全的投資區域。另外,區間越大,平臺的平均利率越高,但同時也伴隨著更高的風險。投資者可以根據自己的自身情況,平衡風險與收益,選擇最適合自己的平臺。
資料視覺化與互動
我們設計了資料視覺化與互動展示產品。通過這一產品,投資者既可以對整個行業的有所瞭解,又可以對每個平臺詳細研究,還可以進行不同平臺之間多個維度的對比。此外,我們還專門為投資者設計了懶人選投功能,告訴我們您的需求,我們就會給您推薦合適的平臺。更豐富的產品資訊,請訪問我們的產品設計網站。
產品展示:zhanghonglun.cn/ppd/
開源資料與程式碼
我們會開放大部分的工作,包括視覺化程式碼、OMNIRank模型程式碼,清洗後的資料,供大家參考、驗證、改進,歡迎交流切磋。
玩資料,我們是認真的~