Logistic regression 為什麼用 sigmoid ?

weixin_33912246發表於2018-05-29

假設我們有一個線性分類器:

1667471-729db3fbc23df36f.png

我們要求得合適的 W ,使 0-1 loss 的期望值最小,即下面這個期望最小:

1667471-43d0c3700709eb4d.png

一對 x y 的 0-1 loss 為:

1667471-8741799c86184c41.png

在資料集上的 0-1 loss 期望值為:

1667471-1e1d0b549cb14bb3.png

由 鏈式法則 將概率p變換如下:

1667471-96455a368ddd64f8.png

為了最小化 R(h),只需要對每個 x 最小化它的 conditional risk:

1667471-8dd48fce8f13c1d1.png

由 0-1 loss 的定義,當 h(x)不等於 c 時,loss 為 1,否則為 0,所以上面變為:

1667471-a0179412c13c2b77.png

又因為

1667471-fe61c0a261a9611e.png

所以:

1667471-6f5996b4dfa42b9e.png

為了使 條件風險 最小,就需要 p 最大,也就是需要 h 為:

1667471-fc2697745c0dd182.png

上面的問題等價於 找到 c*,使右面的部分成立:

1667471-7be75744fe0ec560.png

取 log :

1667471-909fdeec72a3d0e6.png

在二分類問題中,上面則為:

1667471-c4e693a157a7a536.png

即,我們得到了 log-odds ratio !

接下來就是對 log-odds ratio 進行建模,最簡單的就是想到線性模型:

1667471-96797948f7e5a9d6.png

則:

1667471-4c9f37d11dfda97a.png

於是得到 sigmoid 函式:

1667471-86a01edfe3cfa968.png

由此可見,log-odds 是個很自然的選擇,sigmoid 是對 log-odds 的線性建模。

學習資料:
https://onionesquereality.wordpress.com/2016/05/18/where-does-the-sigmoid-in-logistic-regression-come-from/
https://stats.stackexchange.com/questions/162988/why-sigmoid-function-instead-of-anything-else

相關文章