有監督學習
含義
資料集中的樣本帶有標籤,有明確目標
迴歸和分類
迴歸模型:線性迴歸、嶺迴歸、LASSO和迴歸樣條等
分類模型:邏輯迴歸、K近鄰、決策樹、支援向量機等
應用場景
垃圾郵件分類、病理切片分類、客戶流失預警、客戶風險評估、房價預測等。
無監督學習( unsupervised learning )
含義
資料集中的樣本沒有標籤,沒有明確目標
無監督學習:根據資料本身的分佈特點,挖掘反映資料的內在特性
聚類
將資料集中相似的樣本進行分組,使得:
- 同一組物件之間儘可能相似; .
- 不同組物件之間儘可能不相似。
應用場景
基因表達水平聚類:根據不同基因表達的時序特徵進行聚類,得到基因表達處於訊號通路
上游還是下游的資訊
籃球運動員劃分:根據球員相關資料,將其劃分到不同型別(或者不同等級)的運動員陣
營中
客戶分析:把客戶細分成不同客戶群,每個客戶群有相似行為,做到精準營銷
強化學習( reinforcement learing )
含義
智慧決策的過程,通過過程模擬和觀察來不斷學習、提高決策能力
流程
例項
例如: AlphaGo
數學結構
資料也是有數學結構的,沒有數學結構我們便無法處理資料。
度量結構
表示資料之間的距離。
網路結構
有些資料本身就有網路結構,如社交網路。如果沒有,可以利用度量結構給資料附加一個網路結構。
計算所用的演算法如下:
代數結構
將資料看作向量、矩陣或更高階的張量。
幾何結構
流形、對稱性等
Scikit-learn
常用函式
主要模組
總結