1 場景解析: a.資料探查(資料量的大小,資料缺失或亂碼,ETL 操作,欄位型別,是否含有目標佇列)
b.場景抽象(是通過已有的資料,挖掘出可以應用的業務場景。機器學習主要用來解決的場景包括二分類、多分類、聚類和迴歸)
c.演算法選擇(是確定演算法範圍、多演算法嘗試和多視角分析尋找最適合自身業務的演算法)
2 資料預處理:取樣、去噪、歸一化(0,1)和資料過濾,把資料探勘看成做一道菜的話,資料預處 理就是選擇和清洗蔬菜的過程,這一步沒做好會影響整個菜品的口感.
3.特徵工程:是特徵抽象(將源資料抽象成演算法可以理解的資料)、特徵重要性評估、特徵衍生(特徵衍生的方法來挖掘更有價值的特)和特徵降維幾個方面(主成分分析。PCA 通過線性對映投影的方法,把高維的資料對映到了低維的空間中,線性判別式分析LDA)
時間戳,二值類問題,多值有序類問題,多值無序類問題(資訊閹割),多值無序類問題(One-hot 編碼),文字型別,影象或語音資料(先將影象或者語音轉化成矩 陣結構).
4.模型搭建,評估,調優
5.結果輸出和分析
常規演算法
deep learing
反向傳播演算法又稱BP 演算法(backpropagation algorithm),是一種監督學習演算法 演算法的核心思想是求導的鏈式法則。BP 演算法常被用來求解神經網路中的最優化問題,跟 淺層演算法的最優化求解不同的地方是BP 演算法可以用鏈式法則對每一層迭代計算梯度.
自動編碼(AutoEncoder)的核心思想就是通過訓練生成一個函式F,使F(x)約等於x, 也就是得到一個函式使輸入和輸出儘可能相等.
對機器學習演算法和深度學習常見結構有系統學習。常見演算法如下:
機器學習演算法:
分類演算法:KNN,NB,LR,RF,SVM等
聚類演算法:K-means,DBSCAN
迴歸演算法:線性迴歸
文字分析演算法:分詞演算法Hmm,關鍵詞提取演算法TF-IDF,主題模型LDA
推薦類演算法:協同過濾CF(UCF/ICF)
關係圖演算法:標籤傳播,最短路徑
常用的降維方法:確保向量間的獨立性,減少關聯 減少計算量 去噪,把對結果沒有意義的或意義較小的欄位去掉,減少不必要的干擾。 深度學習常見結構: 深度神經網路DNN 卷積神經網路CNN(卷積,下采樣,全連線),主要對空間資料的處理,輸入層格式統一。 迴圈神經網路RNN,常用來解決時序行為的問題。輸入層格式可以不統一。