《機器學習_08_代價敏感學習_新增sample_weight支援》

努力的番茄發表於2020-05-24

原文網址 : https://www.cnblogs.com/zhulei227/p/12953590.html

簡介

這一節主要是為模型打補丁，在這之前筆者已經介紹並實現了幾種典型的機器學習模型，比如線性迴歸、logistic迴歸、最大熵、感知機、svm等，但目前它們都有一個共性，那就是構造的損失函式對每個樣本都是“一視同仁”的，即每個樣本在損失函式中權重都是一樣的，為了方便，可以將它們的損失函式做如下抽象：

\[L(w,x,y)=\sum_{i=1}^Nl(w,x_i,y_i) \]

這裡\(L(\cdot)\)表示整體的損失函式，\(l(w,x_i,y_i)\)表示第\(i\)個樣本的損失函式，樣本量為\(N\)，對具體情況有：

線性迴歸有：

\[l(w,x_i,y_i)=(y_i-w^Tx_i)^2 \]

對logistic迴歸：

\[l(w,x_i,y_i)=-y_ilog\phi(x_i,w)-(1-y_i)log(1-\phi(x_i,w)),這裡 \phi(x,w)=\frac{1}{1+e^{-w^Tx}} \]

對感知機：

\[l(w,x_i,y_i)=max\{0,-y_iw^Tx_i\} \]

對最大熵模型：

\[l(w,x_i,y_i)=\frac{exp(\sum_{j=1}^nw_jf_j(x_i,y_i))}{\sum_yexp(\sum_{j=1}^nw_jf_j(x_i,y))},這裡f_j,j=1,2,..,n表示特徵函式 \]

對svm：

\[l(w,x_i,y_i)=\frac{1}{2N}w^Tw+C\varepsilon_i,y_i(w^T\phi(x_i)+b)\geq 1-\varepsilon_i,\varepsilon_i\geq0 \]

代價敏感

如果對所有樣本的損失函式都考慮一樣的權重其實是有問題的，比如對於離群點、異常點這樣的資料，其實可以忽略掉其損失函式；特別地，對於類別不平衡分類問題，我們可以給少數類樣本更高的權重，而對於多數類更低的權重；另外對於像adaboost這樣的整合學習方法，我們可以迭代調整每個樣本點的權重以組合得到一個不錯的強分類器；所以在損失函式中考慮樣本權重，在某些場景下其實很有必要，簡單來說考慮樣本權重後，損失函式可以更新如下：

\[L(w,x,y)=\sum_{i=1}^N\alpha_il(w,x_i,y_i) \]

這裡\(\alpha_i\)表示樣本\(i\)的權重

程式碼實現

程式碼實現其實很easy，根據目前的情況可以分為兩類：

（1）若採用的隨機梯度下降，可以對每次更新時的梯度\(dw\)乘以\(\alpha_i\)；

（2）若採用對偶方式求解，則對其拉格朗日乘子做調整

具體地，我們為fit函式新增一個引數sample_weight以指定每個樣本的權重（對各模型的更新程式碼就不帖了，見ml_models）,接下來我們用svm測試不平衡分類的效果

from sklearn.datasets import make_classification
import matplotlib.pyplot as plt
import numpy as np
import os
os.chdir('../')
from ml_models import utils
from ml_models.svm import SVC
%matplotlib inline

X, y = make_classification(n_samples=500, n_features=2,
                           n_informative=2,n_redundant=0,
                           n_repeated=0, n_classes=2,
                           n_clusters_per_class=1,weights=[0.05, 0.95],
                           class_sep=3,flip_y=0.05, random_state=0)

svc_without_sample_weight=SVC(kernel='rbf',gamma=2.0,tol=0.01)
svc_without_sample_weight.fit(X,y)
utils.plot_decision_function(X=X,y=y,clf=svc_without_sample_weight)

png

#然後我們加大少數類的權重
weights=np.where(y==0,20,1)
svc_with_sample_weight=SVC(kernel='rbf',gamma=2.0,tol=0.01)
svc_with_sample_weight.fit(X,y,sample_weight=weights)
utils.plot_decision_function(X=X,y=y,clf=svc_with_sample_weight)

png

機器學習——支援向量機（SVM）
2018-05-28
機器學習
機器學習：支援向量機(SVM)
2020-08-17
機器學習
機器學習——支援向量機SVM（一）
2018-12-08
機器學習
【機器學習】支援向量機分類
2022-07-13
機器學習
Android Smart Linkify 支援機器學習
2018-08-22
Android機器學習
Netty 框架學習 —— 新增 WebSocket 支援
2021-07-05
Netty框架Web
《吳恩達機器學習》學習筆記007_支援向量機
2020-11-22
吳恩達機器學習筆記
【機器學習】機器學習簡介
2018-11-29
機器學習
機器學習-整合學習
2019-05-12
機器學習
如何學習機器學習
2019-02-01
機器學習
[python學習]機器學習 -- 感知機
2020-10-19
Python機器學習
人工智慧-機器學習-支援向量機SVM
2024-05-17
人工智慧機器學習
機器學習之支援向量機的超平面
2020-07-04
機器學習
【機器學習】支援向量機（個人筆記）
2024-06-12
機器學習筆記
機器學習&深度學習之路
2018-06-07
機器學習深度學習
機器學習之學習速率
2020-06-12
機器學習
機器學習學習筆記
2021-06-01
機器學習筆記
機器學習-整合學習LightGBM
2023-02-21
機器學習
機器學習：監督學習
2022-12-04
機器學習
機器學習之支援向量與間隔
2020-07-04
機器學習
【機器學習】--Python機器學習庫之Numpy
2018-04-06
機器學習Python
大型機器學習【Coursera 史丹佛機器學習】
2021-09-09
機器學習
（一）機器學習和機器學習介紹
2021-09-09
機器學習
如何利用機器學習創造價值？
2018-11-20
機器學習
【Andrew Ng 機器學習】Week 1（二）：代價函式和梯度下降
2019-03-02
機器學習函式梯度
機器學習（——）
2018-06-19
機器學習
機器學習
2024-05-19
機器學習
機器學習 | 吳恩達機器學習第九周學習筆記
2018-11-22
機器學習吳恩達筆記
吳恩達機器學習系列17：支援向量機
2019-04-17
吳恩達機器學習
機器學習基礎專題：支援向量機SVM
2020-10-18
機器學習
機器學習: Metric Learning (度量學習)
2018-06-10
機器學習
機器學習&深度學習操作tips
2024-04-09
機器學習深度學習
機器學習中的元學習
2024-03-13
機器學習
機器學習是深度學習之母
2019-08-16
機器學習深度學習
機器學習之學習曲線
2019-09-18
機器學習
機器學習整合學習—Apple的學習筆記
2018-11-01
機器學習APP筆記
機器學習——監督學習&無監督學習
2019-07-24
機器學習
機器學習（十四）機器學習比賽網站
2018-12-06
機器學習網站

《機器學習_08_代價敏感學習_新增sample_weight支援》

簡介

代價敏感

程式碼實現

相關文章