主要術語
標籤:標籤是我們要預測的事物,即簡單線性迴歸中的 y 變數
特徵:特徵是輸入變數,即簡單線性迴歸中的 x 變數。簡單的機器學習專案可能會使用單個特徵,而比較複雜的機器學習專案可能會使用數百個特徵,按如下方式指定:
x1, x2, …xN
在垃圾郵件檢測器示例中,特徵可能包括:
1.電子郵件文字中的字詞
2.發件人的地址
3.發件電子郵件的時段
4.電子郵件中包含“一種奇怪的把戲”這樣的短語
樣本:樣本是指資料的特定例項:X ( 我們採用粗體 X 表示它是一個向量 )我們將樣本分為以下兩類:
有標籤樣本
無標籤樣本
有標籤樣本同時包括特徵和標籤。即:
labeled examples: { features, label } : ( x,y )
我們使用有標籤樣本來訓練模型。在我們的垃圾郵件檢測器示例中,有標籤樣本是使用者明確標記為“垃圾郵件”或“非垃圾郵件”的各個電子郵件。
無標籤樣本包含特徵,但不包含標籤。即:
unlabeled examples: { features, ? }: (x, ?)
模型(ML)
模型定義了特徵和標籤之間的關係。例如,垃圾郵件檢測模型可能會將某些特徵與“垃圾郵件”緊密聯絡起來。我們先來介紹一下模型生命週期的兩個階段:
1.訓練是指建立或學習模型。也就是說,向模型展示有標籤樣本,讓模型逐漸學習特徵和標籤之間的關係。
2.推斷是指將訓練之後的模型應用於無標籤樣本。也就是說,使用經過訓練的模型做出有用的預測(y’)
迴歸與分類
迴歸模型可以預測連續值。例如,迴歸模型做出的預測可回答如下問題:
加利福尼亞州一棟房產的價值是多少?
使用者點選此廣告的機率是多少?
分類模型可預測離散值。例如,分類模型作出的預測可回答如下問題:
某個指定電子郵件是垃圾郵件還是非垃圾郵件?
這是一張狗、貓還是倉鼠圖片?
本作品採用《CC 協議》,轉載必須註明作者和本文連結