分類任務中的樣本不均衡問題

BUAA_小胡發表於2020-10-07

參考:
https://github.com/ufoym/imbalanced-dataset-sampler

最近在做行人屬性相關工程,遇到個樣本不均衡問題。
問題描述:行人屬性中很多屬性不平衡,例如,戴帽子和不戴帽子的人的比例很懸殊,我們的訓練集就會出現資料不均衡現象。
針對這種現象,我們採用一種資料均衡取樣器解決,思路是這樣的,每個執行緒以1/2概率從戴帽子和不戴帽子的影像佇列中取出資料。這樣即可保證帶帽和不戴帽的資料生成相對均衡。

類似的,假如是多工多屬性的話,可以通過設定不同任務以及不同屬性的概率權重達到產生均衡資料的資料生成器的作用。

總結:分類樣本不均衡就是利用re-sample
要麼:1.over-sampling,複製樣本數較少的類別的樣本
2.under-sampling,刪除樣本數量較多的類別的樣本

相關文章