機器學習之分類:指定閾值

Lois發表於2020-06-21

邏輯迴歸返回的是機率。您可以“原樣”使用返回的機率 ( 例如,使用者點選此廣告的機率為 0.00023 ),也可以將返回的機率轉換成二元值 ( 例如,這封電子郵件是垃圾郵件 )。
如果某個邏輯迴歸模型對某封電子郵件進行預測時返回的機率為 0.9995,則表示該模型預測這封郵件非常可能是垃圾郵件。相反, 在同一個邏輯迴歸模型中預測分數為 0.0003 的另一封電子郵件很可能不是垃圾郵件。可如果某封電子郵件的預測分數為 0.6 呢 ?為了將邏輯迴歸值對映到二元類別,您必須指定分類閾值 ( 也稱為判定閾值 )。如果值高於該閾值,則表示“垃圾郵件”;如果值低於該閾值,則表示“非垃圾郵件”。人們往往會認為人類閾值應始終為 0.5,但閾值取決於具體問題,因此您必須對其進行調整。
注意:“調整”邏輯迴歸的閾值不同於調整學習速率等超引數。在選擇閾值時,需要評估您將因犯錯而承擔多大的後果。例如,將非垃圾郵件誤標記為垃圾郵件會非常糟糕。不過,雖然將垃圾郵件誤標記為非垃圾郵件會令人不快,但應該不會讓您丟掉工作。

本作品採用《CC 協議》,轉載必須註明作者和本文連結
Hacking

相關文章