幾種機器學習演算法的偏差以及防範

dicksonjyl560101發表於2018-12-20


幾種機器學習演算法的偏差以及防範


https://blog.csdn.net/weixin_42137700/article/details/85106772


 2018-12-19 15:43:49


摘要: 編輯當人們對人工智慧模型是有偏見的,他們通常意味著模型表現不好。但具有諷刺意味的是,糟糕的模型效能通常是由資料或演算法中的各種實際偏差造成的。機器學習演算法是完全按照之前教學要求進行的...


當人們對人工智慧模型是有偏見的,他們通常意味著模型表現不好。但具有諷刺意味的是,糟糕的模型效能通常是由資料或演算法中的各種實際偏差造成的。


機器學習演算法是完全按照之前教學要求進行的,並且是和數學結構和訓練的資料一樣出色。 有成見的演算法最終會做出反映這種成見的事情。


在人類構建演算法並訓練演算法的程度上,來自人類情感的偏見將不可避免會帶入人工智慧模型。幸運的是,從這個詞與機器學習相關的所有意義上來說,都是可以理解的。



人們需要注意和防範3種不同型別的機器學習偏差:


1、樣本偏差

樣本偏差是訓練資料的一個問題。當用於訓練模型的資料不能準確地表示模型將要執行的環境時,就會發生這種情況。實際上,在任何情況下,演算法都不可能訓練到它可以與之互動的整個資料領域。

但是,選擇一個足夠大且足夠代表性以減輕樣本偏差的宇宙子集是一門科學。 社會科學家是能很好的理解了這門科學,但並非所有資料科學家都接受過取樣技術培訓。

可以使用一個明顯但說明該問題的例子,如自動駕駛汽車。如果資料科學家的目標是訓練一種演算法,使其能夠在白天和晚上自動駕駛汽車,如果只在白天資料上訓練,那麼就已經在模型中引入了樣本偏差。在白天和夜間資料上訓練演算法就可以消除樣本偏差的來源。


2、測量偏差

當用於觀察或測量的裝置出現問題時,就會出現系統值失真。這種偏差傾向於在特定方向上扭曲資料。例如,使用帶有彩色濾光片的相機拍攝訓練資料影像會對每一幅影像的顏色造成相同的失真。該演算法將對影像資料進行訓練,這些資料系統就會無法表示它將在什麼環境中工作。

僅僅透過收集更多的資料是無法避免這種偏差的。最好的方法是使用多種測量裝置,以及讓經過培訓的人員來比較這些裝置的輸出。


3、演算法偏差

最後一種偏差與資料無關。 在機器學習中,偏差是演算法的數學屬性。 在這種情況下偏向的對應物是差異。

高偏差模型可以很容易的適應訓練資料,且複雜度高,但對噪聲敏感。另一方面,高偏差的模型更加剛性,對資料和噪聲的變化不敏感,並且容易忽略複雜性。重要的是,資料科學家經過訓練,能夠在這兩種特性之間達到適當的平衡。



理解以上三種人工智慧偏差的資料科學家將會產生出更好的模型和更好的訓練資料。人工智慧演算法是由人類構建的,訓練資料由人工組裝、清理、標記和註釋。資料科學家需要敏銳地意識到這些偏差,以及如何透過一致的、迭代的方法、持續測試模型,以及透過引入訓練有素的人員來提供幫助,以此來避免這些偏差。



來源:52ai人工智慧

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2285828/,如需轉載,請註明出處,否則將追究法律責任。

相關文章