聊聊經典機器學習入門

鼎叔發表於2024-08-08

原文網址 : https://testerhome.com/articles/40419

機器學習

這是鼎叔的第一百零五篇原創文章。行業大牛和剛畢業的小白，都可以進來聊聊。

歡迎關注本公眾號《敏捷測試轉型》，星標收藏，大量原創思考文章陸續推出。本人新書《無測試組織 - 測試團隊的敏捷轉型》已出版（機械工業出版社），文末有連結。

進入正式的機器學習科目學習，通常是先從掌握經典演算法和概念開始，進而程式設計實踐，如下科目知識屬於經典的必學內容。

模型誤差和訓練資料

如果模型過於複雜（噪音過多），引數過多，或者失去泛化能力，迴歸結果就稱為過擬合；反之，建模有欠缺，或者引數過少，導致迴歸模型誤差太大，稱之為欠擬合。這兩種情況都難以滿足迴歸的質量要求。

模型誤差的原因有兩類，一類是訓練誤差，也稱為 “經驗誤差”，還有一類是測試誤差，也被稱為 “泛化誤差”。減少模型誤差的辦法有：額外資料的交叉驗證，重新清洗資料，以及正則化。

為了降低誤差，AI 訓練使用的資料必須是大量的，完整的，有業務含義的，有特徵標籤的。
業務中搜集的大資料雖然有很豐富的型別，但是挑戰也很大，因為資料的資訊密度通常很低，處理速度要求快，資料也不是現成的，需要經過複雜的提取、儲存和處理過程。因此資料也不是越多越好。

為了更好地利用資料，我們透過特徵工程，藉助資料領域的相關知識，來建立能夠使機器學習演算法達到最佳效能的特徵。簡而言之，特徵工程就是把原始資料轉換為特徵，即人工設計輸入變數。例如：為了準確判斷一個人的性別的輸出函式，我們可以設定輸入特徵為：是否有喉結。

行業有一句名言：資料決定了 AI 產生價值的上限，演算法只是儘量去逼近這個上限。

機器學習的要素

“學習的核心是改善效能。”

機器學習也是如此，但和傳統程式設計不同，機器學習不是僅僅依靠 “顯式程式設計” 就能完成的科學。機器學習輸出的是過程和資料關係，並透過檢驗把這些關係規則固化為模型。

機器學習有三大要素：模型，演算法，策略。以烹飪作為例子，模型就是學什麼 - 一個菜餚；演算法就是怎麼學 - 烹飪方法；策略就是何時結束。

人的學習是舉一反三，而機器的學習是舉千反一，演算法就是專家總結出來的精煉邏輯。模型工作就是要解決三個核心問題：如何建模，如何評估模型好壞，如何最佳化它。

按照學習方式的不同，機器學習可以區分為三類：無監督學習，監督學習，強化學習。

迴歸

機器學習的基礎概念，利用統計學中的迴歸分析來確定兩種（或以上）變數間相互依賴的定量關係。線性迴歸就是一條直線函式來表示的迴歸關係：y=ax+b+e，如果這條直線能把樣本資料點幾乎串聯在一起，這個過程就叫擬合。對應的還有非線性迴歸，用二維的曲線方程來表示迴歸擬合結果。

用通俗的話說，迴歸就是找到規律；用數學的話說，迴歸就是透過大量資料推匯出一個函式，基於輸入輸出的值倒推出函式中的引數，叫做逆問題。對於一維函式，當然只需要關心斜率和截距了。

老的機器學習模型直接透過加權組合特徵量，形成擬合公式，但人工神經網路就要引入更多的非線性變換了。

聚類

本公眾號多次提到簡單的聚類概念。它是一種非監督學習，把一批物件的集合分組為彼此相似的類別的分析過程，類似於人類天生識別動物種類的認知活動。經典演算法是 K- Means，基於向量距離來不斷做聚類，直到類簇中的向量歸類變化低於指定的極低值為止。聚類也可以按密度而非位置進行分類，還可以按多層次聚類，即大類裡面分小類。聚類的結果可以用於尋找可疑的孤立點，因此在安全策略中有廣泛的用途。比如某使用者的資料明顯異於其他主流人群，屬於高風險使用者。聚類的一個難點是，應該分為幾類（類簇）來聚合才是最優的，對於非監督學習來說沒有特定經驗，推薦在各個類簇數量的 “收穫” 中，把增量最大的那個（拐點）做為推薦值。

對於聚類的質量評估，可以藉助輪廓係數來度量，即：對比類簇內部的緊湊度，和該類簇與其他類簇的分離程度，兩者差距越大，聚類的效果越好。

分類演算法

這是有監督學習，用已知類別的樣本來對模型進行分類器訓練，達到所要求的新樣本識別能力。分類的結果也是個定性的機率值，比如判斷某客戶是否高風險機率使用者；它和迴歸演算法的差別是前者是離散的變數預測，後者是連續變數預測。相關的經典公式是樸素貝葉斯演算法，P(A|B) P (B)=P(B|A) P(A)，利用 “條件機率” 進行機率分析。它廣泛應用於各種場景，同時也需要輔助其他的建模手段。分類演算法技術還衍生出了多種演算法：決策樹、隨機森林、HMM、SVM、遺傳演算法等。

1) 決策樹。決策樹是一種常見的分類預測模型，它從根節點開始，一步一步決策，直到走到葉子結點。生成決策樹的歸納過程是一種認知過程，決策樹節點的分裂條件決定了接下來分類的規則。最佳的樹枝切分策略，取決於是否儘可能消除了資訊的不確定性（即資訊增益），同時避免剪枝導致過擬合。

我們可以透過不同的欄位切分嘗試，看看哪種切分效果最好，在簡潔性和正確性中取得平衡。

鼎叔在網上看到一句：生命就是一連串的決策樹演算法，不知來自哪位研究人員的感嘆：）

2) 隨機森林。這是決策樹的並行最佳化演算法，快速生成一批簡潔的決策樹，對新樣本分類時，看看這些決策樹計算後得到的民主投票結果。

3) 隱馬爾可夫模型（Hidden Markov Model，HMM）。HMM 在語言識別和自然語言處理領域應用廣泛，它是一個雙重的隨機過程，在狀態轉移之間有一個隨機機率，在狀態和輸出之間也有一個隨機機率，透過觀察一系列的輸入，預測產生什麼觀察結果的機率最大，並生成機率轉移矩陣。它在語音識別領域的應用主要是解碼問題，在輸入法軟體的應用則是透過首字母預測輸入詞語的功能。

4) 支援向量機（Support Vector Machine，SVM）。針對已知的樣本和分類標記，找到一個超平面（即分類函式的表示式）進行劃分，讓這個超平面距離所有點的距離最大。

只用線性變換是無法分割複雜資料的，所以非線性變化就顯得至關重要。

如果樣本是線性不可分，就採用升維的技巧，利用核函式把樣本對映到高維度，再來找到超平面，再對映回來就不是線性了。它是一種比較抽象的機器學習演算法概念，用於模式識別，分類和迴歸。

5) 遺傳演算法。它最有趣的就是藉助生物界進化論的機制進行優勝劣汰，找到最佳解法。基本步驟是對樣本個體進行基因編碼，再從樣本空間中挑選出一個初始叢集，其中每個個體的基因都不同，淘汰不合規則的個體後，讓叢集中的個體結對生成下一代（比如，對兩者的基因進行特定片斷的重組）。對所有下一代進行排序，遴選出最優秀的一批後代，淘汰掉其他的，再進入下一輪 “進化”。當連續數輪的 “進化”，產生的結果沒有進步，或者進步極小，我們就認為演算法可以結束了，此時排序領先的就是最佳解法。需要注意的是，基因編碼方式，初始叢集大小，遴選方法和淘汰機率等，都可能導致最終生成不同的 “最優” 結果。如果樣本空間是非離散的，我們選擇基因編碼的長度要考慮問題域的求解精度，避免計算成本過高。

關聯分析與推薦演算法

這是資料探勘產生價值的經典過程，對不同型別的兩項（或多項）產品共同出現的頻率做關聯分析，判斷兩者是否出現正向或負向相關性。業界最經典的演算法就是 Apriori，它的目標是挖掘出一定置信度和支援度的強關聯規則。

我們可以基於使用者或者基於商品來進行協同過濾計算，推薦出使用者可能想買的其他商品，這裡面可能用到空間向量的餘弦相似度計算。推薦演算法並不是要高度收斂，而是保證多樣性，以便推薦使用者購買更多豐富的商品（即提高轉化率），因此會對商品相似度做歸一化處理，對相似度較低的值做一些補償，合理拉高其分數，便於遴選。

文字挖掘

從大量結構化文字資料中透過自然語言分析，挖掘出可理解可用的知識，一直是資料探勘的重點方向，也是最常見的機器學習技術應用。文字挖掘出來的常見內容包含聚類、分類、NLP（自然語言處理）、資訊抽取等方面，每一塊都是內容龐大的細分知識領域。對於中文網際網路產品，最基礎的文字分類訓練就是分詞及權重計算，以便判斷出詞義、使用者情緒和文章類別（標籤）。用於評價結果質量的指標就是召回率和精度，這也是智慧產品評測普遍要掌握的基礎概念。召回率衡量的是檢索系統的查全率（“檢索出的相關文件” 除以 “文件庫的所有相關文件”），精度衡量的是檢索系統的查準率（“檢索出的相關文件” 除以 “檢索出的總文件”）。

總結

注意以上經典機器學習資料中的時間序列影響，時間序列有趨勢性、週期性、季節性，它可能包含不規則的資料突刺（比如隨機時間和突發時間導致的資料異常）。我們應當讓演算法儘可能降低對時間序列的不合理依賴。

機器學習演算法可以看成是更高階的語言，它讓機器自我學習，並自行整理出規則。而從大量高質量的資料中學習規則，更容易成功地泛化。

沒有一個演算法在任何一個領域總是表現最佳的，演算法是簡潔和高度抽象的表達，實際業務場景才是非常複雜的，如何把場景描述得簡潔可控，才是應用好演算法的前提。

暫無回覆。

【機器學習】深度學習與經典機器學習的優劣勢一覽
2018-04-22
機器學習深度學習
機器學習經典演算法之EM
2019-07-06
機器學習演算法
機器學習經典演算法之KNN
2019-06-30
機器學習演算法KNN
經典機器學習演算法總結
2023-01-13
機器學習演算法
[轉載] Python 機器學習經典例項
2020-11-27
Python機器學習
csharp入門經典
2024-12-07
CSharp
機器學習入門準備
2018-04-10
機器學習
機器學習之小白入門
2020-02-27
機器學習
機器學習入門規劃
2020-10-11
機器學習
機器學習PAI快速入門
2019-07-05
機器學習AI
機器學習01-入門
2021-09-22
機器學習
機器學習和深度學習概念入門
2018-04-12
機器學習深度學習
《Flutter 入門經典》之“Flutter 入門 ”
2021-02-02
Flutter
聊聊機器學習的套路
2018-11-15
機器學習
Python 機器學習 HMM模型三種經典問題
2024-03-19
Python機器學習HMM模型
機器學習經典演算法之K-Means
2019-07-01
機器學習演算法
機器學習經典演算法之決策樹
2019-06-16
機器學習演算法
強化學習入門知識與經典專案分析1.3
2022-02-28
強化學習
【乾貨】機器學習和深度學習概念入門
2018-12-31
機器學習深度學習
視訊教程-Python機器學習經典案例實戰-Python
2020-05-28
Python機器學習
機器學習入門實戰疑問
2020-04-30
機器學習
機器學習入門之sklearn介紹
2019-03-05
機器學習
Python入門經典案例一
2018-09-24
Python
Unix 入門經典筆記
2018-03-09
筆記
從零開始學機器學習——入門NLP
2024-11-21
機器學習
機器學習10種經典演算法的Python實現
2019-08-13
機器學習演算法Python
我的機器學習入門路線圖
2018-08-06
機器學習
Java機器學習VisRec API快速入門 - foojay
2020-10-10
Java機器學習API
包郵送書啦 |《機器學習入門》
2020-09-13
機器學習
聊聊 AI 學習入門 - 數學和資訊理論
2024-07-19
AI
Python機器學習會應用到哪些庫?Python入門學習
2021-01-04
Python機器學習
初學者的機器學習入門實戰教程！
2019-03-22
機器學習
機器學習從入門到放棄：卷積神經網路CNN（二）
2024-03-10
機器學習卷積神經網路CNN
深度學習從入門到進階的12個經典問題及解答
2019-02-27
深度學習
《機器學習有意思！ 01》- 世界上最簡單的機器學習入門
2019-03-02
機器學習
機器學習入門(二) — 迴歸模型 (理論)
2018-12-07
機器學習模型
機器學習入門筆記——如何理解梯度下降
2018-03-11
機器學習筆記梯度
一文帶你入門圖機器學習
2023-01-29
機器學習

聊聊經典機器學習入門

相關文章