連線清華,沈向洋離職後首次公開演講:構建負責任的AI

大資料文摘發表於2020-04-06

連線清華,沈向洋離職後首次公開演講:構建負責任的AI
大資料文摘出品
作者:劉俊寰

前幾日,清華大學官宣了前微軟全球執行副總裁、人工智慧與研究事業部負責人沈向洋的最新動態:加入清華大學高等研究院,以雙聘教授的身份重新迴歸到大眾的視線中。

由於疫情原因,3月5日,清華大學史上首次舉行了線上聘任儀式,在“春風講堂”系列講座第四講活動中,校長連線,遠端完成了聘任儀式。沈向洋也釋出了主題為“Engineering Responsible AI“的講座。
 
連線清華,沈向洋離職後首次公開演講:構建負責任的AI

在演講開始前,清華大學校長邱勇對沈向洋的加入表示歡迎,並表示,“這是清華大學歷史上第一次以視訊會議的形式舉行聘任儀式,校長連線發聘任書”。

其實早在2005年,沈向洋就首次受聘成為了清華大學高等研究院雙聘教授,距今已經過去了15年,嚴格來說,這應該是“續聘”

聘任儀式後,沈向洋在Zoom直播平臺,用全英文進行了主題為Engineering Responsible AI的課程演講,分享了他對目前AI可解釋性與AI偏見相關的研究與看法

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

文摘菌對演講精華總結如下:

走出黑箱,構建可解釋AI


演講開始,沈向洋就表示,AI已經從科幻小說和電影中走入了現實,在金融、醫療等眾多領域都已經得到了發展,但AI系統就像黑箱一樣,我們不知道它為什麼是基於什麼標準做出的決策,這也就引出了第一個演講主題:我們缺乏對AI所做決定的認知。

不過,沈向洋也指出,在人類歷史發展過程中,每次新技術的開發,都會面臨“如何讓技術更加安全可靠”的問題比如,在生產電氣零部件時,我們都會有相應的檢查記錄。一旦哪裡出現問題,我們需要對操作檔案進行復盤,找出問題所在。但是,AI沒有這種檢修表,這就讓我們對其中的問題更加迷茫。

因此AI的發展需要遵循一定的基本原則,包括公正、透明、可信賴&安全、隱私&安全、適用範圍廣泛、負責

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

其實,很多年前,人類就已經在使用這種線性模式的系統了,只不過那時我們還不稱其為AI。

下面這張圖是一張模型可解釋性的變化圖片,橫軸代表模型的可解釋能力,縱軸表示預測的準確性。以橫軸為標準,越向右邊延伸,模型的可解釋性就越大;以縱軸為標準,越向上延伸,系統預測的準確性越高。

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

在2016年,很多地方都已經推出了用於預測未來罪犯的AI,法庭在審判時也已經開始用AI進行輔助判斷,但我們越是把AI放在一個重要的位置上,就越會擔心演算法是否存在偏見

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

在下圖中,紅色曲線代表從模型提取的情況,綠色曲線代表實際情況。但問題是,你是根據什麼判斷這個人將會或將不會再次犯罪的?這時或許我們可以借用一下過去的資料,資料告訴我們,如果這個人有犯罪史,在過去他犯得罪越多,未來繼續犯罪的可能性也就越高。

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

從下圖可以看出,美國本土居民的犯罪率較高,對應地,根據紅色柱形圖顯示,重新犯罪比率也比較高,但代表實際的綠線顯示,結果與預測是相反的。

人們基於刻板印象,往往會認為非裔美國人犯罪率很高,實際上也並不是這樣。

儘管得出這些結論,我們是嚴格基於事實和資料進行的預測,但是其中不可避免地存在著偏見,因此在訓練和利用這種資料集的時候需要格外小心。

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

在舉出第二個例子之前,沈向洋向大家安利了一篇名叫“why should I trust you?:explaining the predictions of any classlfler"的文章。他認為人工智慧信任的關鍵的問題在於,我們理解黑箱中的東西,即使我們向裡面輸入後能夠得到輸出,但是我們仍無法理解模型本身是如何工作的

有些人可能會提出一種看法,他們會說,這些難懂的模型我們不必追求整體解釋,只需要區域性的可解釋性就行了,但是那麼就會出現下列問題。

就算我們已經把模型的識別準確率訓練到了5/6,但是仍然有可能無法識別這是哈士奇還是狼。如果你想要一隻哈士奇,卻把一隻狼帶回了家,那麻煩就大了。

從上面兩個例子中可以看出,有時候你會以為,你已經訓練出了一個非常強大的模型,但可能實際上並非如此,這就是為什麼模型的可解釋性如此重要的原因所在。

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

要解決AI的偏見需要從資料下手


現在我們一說到構建AI,就一定離不開資料。因此在瞭解AI的偏見源於何處的時候,我們也需要從源頭,也就是資料本身下手


紐約時報此前發過一篇文章,叫作”facial recognition is accurate, if you're a white guy",目前,在微軟、IBM和Face++制定的面部識別演算法中,黑人、女性的面部識別準確率普遍要低很多。

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

下圖所示,黑色女性人臉識別的錯誤率高達21.073,很多人對此表示抗議。

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

後來,對這個識別模型進行調整後,得到了如下結果:

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

可以看出,模型被改善之後,即使是面對不同膚色人種,識別準確率也有了明顯的提高,許多分類錯誤率已經達到了0.000,即便是黑人女性,識別錯誤率也降低至1.9008。

從不斷的訓練中,沈向洋表示,他們得到的結論是:這種偏見來自於訓練採用的樣本資料

基於這個問題,他們對微軟500名機器學習領域工程師進行了調查,向他們詢問是如何改善機器學習系統的?調查後得到的結論是,機器學習工程師面臨的最大問題之一就是,有時候他們知道系統出問題了,但不知道具體是哪裡,也並不知道為什麼。

當訓練一個或複雜或簡單的模型時,最終得到了一個準確率為73.8%的結果,這個結果看上去似乎令人滿意,但是一旦再深入訓練的資料集時,會發現上述的一些問題,也就是說,在面對不同的膚色和性別,模型的準確率是不一樣的。

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

所以,沈向洋向大家介紹了一個方法,就是構建了一個系統來進行對比,找出具體問題所在。

傳統機器學習系統是低階模式,現在的模型帶有錯誤可解釋性,可以從整體視角根據資料集不同的特徵來判斷問題源於何處,也可以從叢集角度找出到底問題的原因。基於這種模型,一旦出現問題,可以複檢樣本資料集、模型來找出癥結所在。

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

再次回到面部識別,在這個模型中,可以看到他的準確率達到了167/219,但是通過實際應用下來會發現,女性的識別準確度是不如男性的,同時,沒有化妝的、短髮的、不苟言笑的面部的識別準確率不夠高。

這就表示你的模型出了問題,你需要重新回到資料上去,發現資料上存在哪些問題。

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

沈向洋表示,訓練時他們使用了很多資料,通過列出27種職業,包括會計、律師、教師、建築師等,然後輸入一段話,系統可以識別出其職業為,如果修改了段落中某些單詞,哪怕只改變很小的一部分 ,比如只修改了性別,最終的結果就從“教師”變成了“律師”。

這裡就涉及到了文字嵌入幾何學,這個幾何嵌入有兩個屬性:Proximity和Parallelism。

比如當我們說到Apple和Microsoft,大家就會聯想到,這兩家公司都很偉大,他們的成立者是賈伯斯和蓋茨,這些就是嵌入的內容。

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

在比如說,下圖的這張性別幾何圖中,可以看到,如果某個單詞更向下鄰近He,則表示為他;如果某個單詞更向上,鄰近She,表示為她。

從橫軸可以看出,單詞越向右,就越與性別無關;越向左,越與性別相關,例如妻子和丈夫,爸爸和媽媽。這裡還可以看出,時髦通常用來形容女性,傑出通常用來形容男性。

連線清華,沈向洋離職後首次公開演講:構建負責任的AI

至此,我們其實已經知道了問題出在哪裡,其實,“時髦”、“傑出”、“天才”這些詞,既可以用來形容男性,也可以用來形容女性。既然知道了問題所在,那麼我們就可以用模型解決。

可以說,現在我們已經進入了AI時代,AI已經與我們的生活產生了十分緊密的關係,我們身為AI首代人,時代發展已經由不得我們自己做出選擇是否接受AI,但是我們能決定我們可以用何種方式來構建AI以及使用AI

最後,沈向洋表示,儘管計算機視覺現在很火,但未來十年自然語言處理或許會後來居上“懂語言者得天下”,這也是沈向洋全程唯一說的中文。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2678910/,如需轉載,請註明出處,否則將追究法律責任。

相關文章