在大型金融資料集上使用機器學習的特徵工程測試
對於從事銀行大型金融資料集的資料科學家和分析師來說,確定信用違約或壞賬的可能性是他們所做的最重要的活動之一。這一行動是確定銀行信貸政策、風險管理和信貸業務的重要任務,對於向潛在客戶銷售信貸產品的銀行而言,這是真正的競爭優勢。
然而,對於具有大量資料集的情況,對於具有下游金融影響的分析師來說,這就變成了一種極端基於判斷的呼叫(通常是不準確的)。此外,在不消除決策制定的非關鍵特性的情況下,最先進的機器學習演算法也變得無能為力,因為它們被灌輸了“無意義”的資料。
最近的機器學習範例提供了使用內建演算法的解決方案,這些演算法可以幫助資料分析師為銷售和運營團隊提供業務洞察,從而在客戶獲取和活動管理方面採取積極主動的行動。
以下流程是使用Lending Club的真實客戶資料(公共資訊)開發的。當然,這不包括機密的客戶資訊,如姓名、地址、聯絡方式和社會保障資訊。但是,就本活動而言,我們不需要任何機密的客戶資訊。公共資料集中提供的功能應該足以讓我們提出預期見解。
我們將使用Jupyter Notebook編寫一個簡短的python程式,涵蓋以下活動-
資料採購
資料探索和清理
特徵重要性
情節和視覺化
讓我們開始吧。
第1步- 採購資料
我們可以使用具有真實世界貸款和信用預設資料點的公共領域中可用的LendingClub資料。一旦下載了資料(csv檔案),就可以將其上傳到Jupyter筆記本中的相應資料夾。
注意:如果你沒有Jupyter筆記本,強烈建議下載/安裝和anaconda()
第2步- 資料探索和清理
匯入必要的包並讀取資料集
刪除不相關的欄位
做一些基本的探索
作為來自該領域的人,直觀的是,就業長度是信用管理的關鍵因素之一,就業長度資料完全搞砸了。我們需要清理它。
同樣清理可用於條款和利率的資訊。
使用dummy將關鍵分類值轉換為相關數字
現在開始研究目標功能,即“貸款狀態”。除了“全額支付”和“當前”客戶,我們可以讓所有客戶處於拖欠狀態,因此具有更高的違約傾向。
利率領域似乎完全搞砸了,我們需要清理它。
現在看來我們有一個相當乾淨的資料,我們可以使用演算法來獲得一些下降結果。但在此之前,最好以csv格式備份乾淨檔案,以備將來參考和離線報告。
讓我們做一些基本的探索,使用一些繪圖技術來研究資料屬性。
第3步 –使用隨機森林做特徵選擇
這是本文中最重要的一步,重點介紹了使用隨機森林進行分析的最重要特徵的技術。這對於評估特徵在機器學習任務中的重要性非常有用,尤其是在我們處理大量特徵時。換句話說,我們可以說這是資料清理的高階階段,用於刪除對我們的目標功能沒有任何有意義的貢獻的非必要資料。
此步驟可能需要相當長的時間才能執行。所以有一些耐心:-)
所有122個功能現在按其重要性的降序顯示,並且作為在此域上工作的資料分析師/科學家,刪除非關鍵功能不應該是一項艱鉅的任務。
第4步- 繪圖和視覺化
即使我們有一系列重要功能,但始終建議對此列表進行視覺化確認,以用於各種操作或管理目的。
由於我們有122個特徵,上面的情節看起來很混亂。讓我們嘗試探索10個最關鍵的功能,看看它是如何出現的
現在,我們可以或多或少地假設特徵20是確定貸款違約的最關鍵特徵。您可以根據組織的要求處理繪圖。此外,您可以透過此機制將特徵數量從“數千”減少到不到100。這確實為銀行提供了一個強大的選擇,可以在資料被提供給複雜的機器/深度學習演算法之前執行對資料的最佳化。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31509949/viewspace-2214739/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 機器學習 | 特徵工程機器學習特徵工程
- 機器學習——特徵工程機器學習特徵工程
- 機器學習特徵工程機器學習特徵工程
- 機器學習之特徵工程機器學習特徵工程
- 機器學習2-特徵工程機器學習特徵工程
- 面向機器學習的特徵工程一、引言機器學習特徵工程
- 機器學習中,有哪些特徵選擇的工程方法?機器學習特徵
- 大資料測試學習筆記之測試工具集大資料筆記
- 機器學習之資料集的劃分機器學習
- 使用SAP Leonardo上的機器學習服務提取圖片的特徵向量機器學習特徵
- 機器學習-特徵提取機器學習特徵
- 大型機器學習【Coursera 史丹佛 機器學習】機器學習
- 什麼是機器學習的特徵工程?【資料集特徵抽取(字典,文字TF-Idf)、特徵預處理(標準化,歸一化)、特徵降維(低方差,相關係數,PCA)】機器學習特徵工程PCA
- 機器學習筆記——資料集分割機器學習筆記
- 33個機器學習常用資料集機器學習
- 分散式機器學習常用資料集分散式機器學習
- 一個真實資料集的完整機器學習解決方案(上)機器學習
- 機器學習在金融比賽中的應用機器學習
- 機器學習的靜態特徵和動態特徵機器學習特徵
- 在 Airbnb 使用機器學習預測房源的價格AI機器學習
- 機器學習工程師與資料科學家的大斗法機器學習工程師資料科學
- SparkML機器學習之特徵工程(一)特徵提取(TF-IDF、Word2Vec、CountVectorizer)Spark機器學習特徵工程
- 大資料文摘:細數機器學習在金融領域的七大應用大資料機器學習
- 機器學習中的有標註資料集和無標註資料集機器學習
- 【特徵工程】(資料)使用Xgboost篩選特徵重要性特徵工程
- 機器學習實戰系列[一]:工業蒸汽量預測(最新版本上篇)含資料探索特徵工程等機器學習特徵工程
- 最強資料集集合:50個最佳機器學習公共資料集機器學習
- 百面機器學習總結--第一章特徵工程機器學習特徵工程
- 如何準備機器學習工程師的面試?機器學習工程師面試
- 【機器學習入門與實踐】資料探勘-二手車價格交易預測(含EDA探索、特徵工程、特徵最佳化、模型融合等)機器學習特徵工程模型
- 資料科學家與機器學習工程師的區別? - kdnuggets資料科學機器學習工程師
- 使用SAP Cloud Platform Leonardo機器學習的測試控制檯CloudPlatform機器學習
- 「雜談」GitHub上最全的機器學習和深度學習資料Github機器學習深度學習
- 機器學習筆記 - Pascal VOC資料集使用FCN語義分割機器學習筆記
- 機器學習之良好特徵的特點機器學習特徵
- 機器學習的未來——深度特徵融合機器學習特徵
- 祕籍 | 機器學習資料集網址大全機器學習
- 訓練機器學習的資料集大小很重要 - svpino機器學習