如何讓AI系統擺脫偏見

微軟研究院AI頭條發表於2017-12-11

mmbizgif?wxfrom=5&wx_lazy=1


編者按:朱熹曾經說:“問渠哪得清如許,為有源頭活水來。”在人工智慧的發展大潮中,繁雜多變的現實世界無疑就是推動技術進步的源頭。但由於資料不可避免地會帶有人類的痕跡,它們有時也會產生一些“偏見”。如何讓人工智慧變得更加公平客觀?在剛剛結束的NIPS大會上,微軟研究院的研究員們分享了他們對這一問題的深入思考。


人工智慧已經能夠幫助人們更快地輸入文字和更好地拍攝照片,而在一些諸如人事招聘、刑事判決等重大決策上也開始嶄露頭角。有鑑於此,微軟乃至整個機器學習領域的研究人員都在設法確保用於AI系統開發的資料能夠反映真實世界的情況。但一切都會像我們剛剛說得一樣簡單嗎?

640.png?wxfrom=5&wx_lazy=1

一、困擾:偏見問題


微軟紐約研究院的首席研究員Kate Crawford應邀在今年NIPS上做了一場題為“偏見問題”的報告,其中她重點介紹了機器學習偏見的例子,比如新聞機構ProPublica的調查揭露,法院和執法機構用於預測犯罪分子重新犯罪傾向的演算法對非裔美國人存在偏見。


Crawford解釋說,資料並非原本就存在於這個世上,相反,資料是人為生成的。採集資料集的人需要決定:這些資料是否能代表全體人類的行為和表徵。訓練資料集的過程將始終帶有歷史的痕跡,而歷史是人類的歷史,所以它們總會帶有與人類相同的弱點和偏見。我們不能簡單地通過提高訊號或調整卷積神經網路來解決這個問題,而是需要更深刻地認識這些體系中存在的結構性不公平和偏見的歷史實質。


微軟紐約研究院的高階研究員、NIPS 2017程式共同主席Hanna Wallach表示,資料是世界的表徵,是用來訓練機器學習模型的燃料。我們經常談論資料集,就好像它們是具有明確邊界、經過清晰定義的事物,但隨著社會上的機器學習越來越普及,資料集將越來越多地取自現實世界的場景,比如一些社會過程。在NIPS期間,Wallach與另外幾名NIPS 2017程式共同主席一同發起了一個關於資料公平性、問責性和透明度的全新主題。

0?wx_fmt=jpeg

微軟研究院研究員Hanna Wallach

640.png?

二、思考:機器學習的核心


今年NIPS大會上有數百篇描述機器學習模型開發及所用訓練資料的論文。會議所採納的論文中,有43篇是由微軟研究人員撰寫或共同撰寫的,題材涵蓋了從對合成DNA中儲存資料進行檢索的最新進展到在不損害使用者隱私的前提下反覆收集來自使用者裝置的遙測資料的方法。


雖然題材林林總總,但在過去30年間,幾乎所有在NIPS上發表的論文都以某種方式涉及到資料。而近年來,機器學習也早已不再侷限於僅使用合成或標準資料集的純粹學術語境,相反,它開始影響到我們生活的各個方面。


機器學習模型開始應用於解決現實世界的問題和挑戰,人們越來越強烈地意識到演算法對他們生活所產生的影響:從閱讀哪些新聞、購買什麼產品乃至能否獲得貸款等大事小情。隨著人們相關意識越來越強烈,大家也愈發關心這些演算法究竟在做什麼,以及這些資料時從何處獲取的。


0?wx_fmt=png

三、嘗試:可解釋的機器學習


打消人們對人工智慧和機器學習顧慮的方法之一,是優先考慮透明度——讓人工智慧系統變得更易於解釋。微軟紐約研究院高階研究員Jenn Wortman Vaughan在NIPS上發表演講時介紹了一項她和同事們正在進行的大型實驗,這些實驗旨在瞭解哪些因素能夠讓機器學習模型可以被專家以外的人群所理解。他們的想法是進一步提升演算法預測的透明度,讓決策者理解系統為什麼會做出特定的預測。例如,模型特徵或輸入的數量是否會影響一個人捕獲模型出錯情況的能力?如果能看清某個模型如何進行預測,而不是將其置於黑箱內,人們是否會更信任這個模型?他們希望可以通過這項研究來進一步開發能夠幫助決策者瞭解用於訓練模型的資料及模型預測的內在不確定性的工具。

0?wx_fmt=jpeg

微軟研究院研究員Jenn Wortman Vaughan


微軟雷德蒙研究院的傑出工程師Patrice Simard認為可解釋機器學習領域應該從計算機程式設計中得到啟發:在計算機程式設計中,人們掌握瞭如何通過簡單而容易理解的步驟,將大問題分解為更簡單的問題。但是在機器學習領域,我們卻完全落後了,甚至還沒有建立基礎設施。

 

為了迎頭趕上,Simard提倡將思路轉向他所謂的“機器教育”——在解決問題時,設法讓機器尋找特徵,而不是在堆積如山的資料中尋找模式。他解釋說,與其用數百萬張被標記為“好車”與“壞車”的圖片來訓練一個用於汽車購買決策的機器學習模型,不如教會模型理解燃油經濟性和碰撞測試安全性等特徵。


0?wx_fmt=png

四、探索:研究人員多樣性


除了資料偏見問題,研究人員也在關注另一個與此相關的問題:AI研究人員群體是否有足夠的多樣性。研究表明,更加多樣化的團隊會選擇更加多樣化的問題來研究,並且會產生更有創新性的解決方案。

 

在某些型別的科學學科中,人們只想發現某個特定真相,至於誰發現了真相併不重要。然而,人工智慧不完全是這樣。研究人員要自己界定想要解決什麼樣的問題,如果研究人員團隊沒有多樣性,那麼就有可能僅僅解決了一小撮同類群體認為重要的一系列狹隘的問題,而不是世界上許多人所共同面臨的問題。

 

而防止意外偏見蔓延到AI系統的措施之一就是鼓勵該領域的多樣性,確保人們有關AI訓練的知識均勻地分佈在世界各地,跨越性別和種族。

 

早在2005年,Wallach第四次參加NIPS會議時,她就開始關注研究人員多樣性的問題。她後來和Vaughan等人共同創立了“機器學習中的女性”研究小組,迄今已有12個年頭,並且自2008年以來一直與NIPS同地舉辦研討會,今年有超過650名女性研究員參加。

 

Wallach應邀在“機器學習中的女性研討會”上發表演講,介紹了她如何在社會科學領域內應用機器學習以衡量“社群成員”或“討論主題”等不可觀測的理論構建。她說:“無論何時,在特定社會背景之下的資料處理都必須考慮倫理、公平、問責、透明和隱私等問題。”


你也許還想


● 乾貨 | NIPS 2017:用於序列生成的推敲網路

● 乾貨 | NIPS 2017線上分享:利用價值網路改進神經機器翻譯

● NIPS 2016:普及機器學習


640.png?

感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:msraai@microsoft.com。


640.jpeg?


相關文章