幾種機器學習演算法的偏差以及防範
幾種機器學習演算法的偏差以及防範
https://blog.csdn.net/weixin_42137700/article/details/85106772
2018-12-19 15:43:49
摘要: 編輯當人們對人工智慧模型是有偏見的,他們通常意味著模型表現不好。但具有諷刺意味的是,糟糕的模型效能通常是由資料或演算法中的各種實際偏差造成的。機器學習演算法是完全按照之前教學要求進行的...
當人們對人工智慧模型是有偏見的,他們通常意味著模型表現不好。但具有諷刺意味的是,糟糕的模型效能通常是由資料或演算法中的各種實際偏差造成的。
機器學習演算法是完全按照之前教學要求進行的,並且是和數學結構和訓練的資料一樣出色。 有成見的演算法最終會做出反映這種成見的事情。
在人類構建演算法並訓練演算法的程度上,來自人類情感的偏見將不可避免會帶入人工智慧模型。幸運的是,從這個詞與機器學習相關的所有意義上來說,都是可以理解的。
人們需要注意和防範3種不同型別的機器學習偏差:
1、樣本偏差
樣本偏差是訓練資料的一個問題。當用於訓練模型的資料不能準確地表示模型將要執行的環境時,就會發生這種情況。實際上,在任何情況下,演算法都不可能訓練到它可以與之互動的整個資料領域。
但是,選擇一個足夠大且足夠代表性以減輕樣本偏差的宇宙子集是一門科學。 社會科學家是能很好的理解了這門科學,但並非所有資料科學家都接受過取樣技術培訓。
可以使用一個明顯但說明該問題的例子,如自動駕駛汽車。如果資料科學家的目標是訓練一種演算法,使其能夠在白天和晚上自動駕駛汽車,如果只在白天資料上訓練,那麼就已經在模型中引入了樣本偏差。在白天和夜間資料上訓練演算法就可以消除樣本偏差的來源。
2、測量偏差
當用於觀察或測量的裝置出現問題時,就會出現系統值失真。這種偏差傾向於在特定方向上扭曲資料。例如,使用帶有彩色濾光片的相機拍攝訓練資料影像會對每一幅影像的顏色造成相同的失真。該演算法將對影像資料進行訓練,這些資料系統就會無法表示它將在什麼環境中工作。
僅僅透過收集更多的資料是無法避免這種偏差的。最好的方法是使用多種測量裝置,以及讓經過培訓的人員來比較這些裝置的輸出。
3、演算法偏差
最後一種偏差與資料無關。 在機器學習中,偏差是演算法的數學屬性。 在這種情況下偏向的對應物是差異。
高偏差模型可以很容易的適應訓練資料,且複雜度高,但對噪聲敏感。另一方面,高偏差的模型更加剛性,對資料和噪聲的變化不敏感,並且容易忽略複雜性。重要的是,資料科學家經過訓練,能夠在這兩種特性之間達到適當的平衡。
理解以上三種人工智慧偏差的資料科學家將會產生出更好的模型和更好的訓練資料。人工智慧演算法是由人類構建的,訓練資料由人工組裝、清理、標記和註釋。資料科學家需要敏銳地意識到這些偏差,以及如何透過一致的、迭代的方法、持續測試模型,以及透過引入訓練有素的人員來提供幫助,以此來避免這些偏差。
來源:52ai人工智慧
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2285828/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【機器學習】新手必看的十種機器學習演算法機器學習演算法
- (轉)機器學習:偏差處理(2)機器學習
- 機器學習之分類:預測偏差機器學習
- 機器學習演算法公式的書寫規範機器學習演算法公式
- 在機器學習領域,主要的學習方式是哪幾種?機器學習
- 一文讀懂機器學習中的模型偏差機器學習模型
- 吳恩達機器學習系列14:偏差與方差吳恩達機器學習
- 機器學習中偏差bias和方差variance區別機器學習
- 伯克利最新研究:用演算法解決演算法偏差?公平機器學習的延遲影響演算法機器學習
- 機器學習《Machine Learning》筆記--偏差(Bias)和方差(Variance)機器學習Mac筆記
- 簡明機器學習——01機器學習的幾個基本要素機器學習
- 機器學習10種經典演算法的Python實現機器學習演算法Python
- 機器學習沒有捷徑,根據機器學習演算法地圖學習是最有效的一種方式!機器學習演算法地圖
- 「資料科學家」必備的10種機器學習演算法資料科學機器學習演算法
- 幾種排序演算法的原理以及 Java 實現排序演算法Java
- 機器學習演算法機器學習演算法
- 機器學習演算法學習筆記機器學習演算法筆記
- 前端 input 輸入框可能被攻擊的幾種方式及防範前端
- 機器學習13種演算法的優缺點,你都知道哪些?機器學習演算法
- 例項複習機器學習數學 - 2. 幾種典型離散隨機變數分佈機器學習隨機變數
- 【知識分享】伺服器的防護幾種模式伺服器模式
- 13 種機器學習演算法概述(附 Python、R 程式碼)機器學習演算法Python
- 機器學習中比較重要的幾個概念機器學習
- 機器學習演算法:AdaBoost機器學習演算法
- 【知識分享】高防伺服器的常見幾種防禦模式伺服器模式
- Python遷移學習:機器學習演算法Python遷移學習機器學習演算法
- 淺談前端安全以及如何防範前端
- 從 0 開始機器學習 - 機器學習演算法診斷機器學習演算法
- 整合學習-偏差與方差
- 成為資料科學家應該知道的10種機器學習演算法資料科學機器學習演算法
- 學會這10種機器學習演算法,你才算入門(附教程)機器學習演算法
- 【機器學習】機器學習建立演算法第1篇:機器學習演算法課程定位、目標【附程式碼文件】機器學習演算法
- 17個機器學習的常用演算法機器學習演算法
- 幾種文字編輯器IDE學習難度曲線IDE
- 機器學習演算法一覽機器學習演算法
- 機器學習——梯度下降演算法機器學習梯度演算法
- 機器學習:整合演算法機器學習演算法
- 機器學習 10大演算法機器學習演算法