AI的“色差”與“糾偏”

naojiti發表於2020-06-30

在美國學術界聲援BLM(Black Lives Matter)之後,事情的走向有點難以預料。

學術界的反種族歧視反省似乎沒有了下文,但是如火如荼的BLM運動早已蔓延開來,這次將矛頭指向了AI界。

事情的起因是杜克大學提出了一種稱之為PULSE(Photo Upsampling via Latent Space Exploration)的AI演算法。它可以輕鬆將馬賽克級別畫質的人臉影像轉化為計算機生成的高清畫質影像,也可以“有來有往”地將高清畫質給降級到高糊狀態,反正是效果極好。

問題就出在,PULSE生成的影像可不保證是還原的原始人物的頭像,而且在人臉膚色上還會進行大膽“創新”,把原本是黑膚色的人像變成了白膚色的。比如奧巴馬:

這一結果被美國網民發現之後,紛紛將涉嫌種族歧視的矛頭指向人工智慧。然後將事情引向高潮的是AI界的標杆性人物Yann LeCun,他在推特上給出了自己的解釋,大意是出現這種偏差的原因是由於資料集的偏差。訓練資料集主要是用了白人照片,如果是換成黑人照片,可能會出現生成的人像更多是黑人的情況。

LeCun的一番解釋卻換來了兩位同行的反駁,她們聲稱LeCun的解釋是“避重就輕”,忽視了AI的偏見來自於更廣泛的社會不公和偏見的影響。

為此,LeCun選擇道歉以息事寧人,不願意將這一話題繼續擴大。然而AI界已經為此分成了兩派,就LeCun是否在為“AI的種族歧視”辯護和是否應該為此事道歉吵得不可開交。

今天,在社交網路中不堪其擾的LeCun呼籲所有人停止相互的攻擊,再次申明自己反對一切形式的歧視,並決定退出推特來表明這一態度。

相互攻擊的口水戰確實對於解決問題於事無補,但AI演算法中存在種種的“偏見”和“歧視”,則仍然是AI界嚴肅面對的 “事實性”問題。

不過,就導致AI偏見的種種原因,人們仍然在爭論不休,而至於如何解決AI中存在的種種偏見,則同樣沒有一致的定論。我們希望儘可能呈現出這一爭論的複雜樣貌,來探索下破解AI偏見的方案中有無最優解。

AI的“有色眼鏡”世界

今年5月底,微軟宣佈要裁撤80名外包編輯,交由AI演算法負責接下來的MSN新聞抓取、排版和配圖等工作。

(MSN 在關於Jade的報導中錯誤地使用了Leigh的照片)

然而就在宣佈之後不到一週時間裡,AI編輯就捅了婁子,在一篇關於阿拉伯裔歌手Jade Thirlwall的文章中,配圖卻用成了該團隊另外一個非裔成員Leigh-Anne Pinnock的照片。更讓人哭笑不得的是,這篇文章正是Jade講述自己曾經遭受種族歧視經歷的文章。

(左三是Jade Thirlwall,右一是Leigh-Anne)

AI演算法又用“AI臉盲”的偏見再一次不經意地“歧視”了一把Jade和她的夥伴Leigh-Anne。雖然說兩位女團成員長得是有那麼一點想象,但是AI就不能長長眼,正確區分出兩人的膚色差別嗎?

事實上,AI人臉識別在深色皮膚族裔的識別上,問題一直存在。

2018年,MIT媒體實驗室的研究員Joy Buolamwini(演算法正義聯盟的組織者),就“人臉識別技術在識別不同種族和性別的人臉的效果關係”的研究中發現,一些商業軟體在識別黑色人種的性別的錯誤率要遠遠高於白色人種,而且膚色越黑,識別率就越低。

研究中,她選擇了微軟、IBM和Face++的人臉識別演算法。經過測試,演算法在識別白人男性的錯誤率僅為1%,在識別白人女性的錯誤率為7%。而到了識別黑人男性的錯誤率則升至12%,黑人女性的識別錯誤率則高達35%,也就是每三個黑人女性就會被錯誤識別一次性別。

而這次研究被哈弗福德學院電腦科學家Sorelle Friedler評價為第一次證明人臉識別對不同人群有不同效果的研究。

其實之前業界早已經意識到這一問題,AI在計算機視覺上面存在的認知偏見,可能會導致種族歧視,比如2015年,谷歌的影像識別技術就將非裔美國人標記為“大猩猩”。

(美國邊境警察檢查護照)

當時出現這樣的狀況,還可以理解為影像識別演算法不夠成熟,而現在這一問題卻仍然並未得到更好的解決。2019年底,美國國家標準與技術研究院(NIST)的一項研究表明,世界上許多頂尖的面部識別演算法都存在年齡、種族和民族偏見。研究顯示,一些美國本土開發的面部識別軟體中,中年白人男子的識別準確率最高,而非裔美國婦女識別錯誤率最高,少數族裔、兒童和老年人的錯誤識別率也相對更高。在某些情況下,亞裔和非裔美國人被錯誤識別的概率是白人的100倍。

AI偏見的範圍,自然不僅僅限於人臉識別領域。比如在演算法招聘、犯罪風險預測以及疾病風險評估當中,都會因為演算法模型的偏差和資料的不完善導致AI的偏見。

比如,2018年,研究者在亞馬遜的招聘演算法中發現,在技術職位的簡歷中,對包含有“女性”的一詞的簡歷進行了降級。而將AI應用於某些人可能再犯罪的風險評估時,更多以司法部的歷史資料記錄進行訓練。而現實資料中,美國黑人就比白人或西班牙裔更容易被警察攔截。

再比如,美國某公司在利用AI篩選慢性病高風險人群的過程彙總,他們主要根據患者支付的醫療費用來評估的患者患併發症的風險高低。但他們發現,在實際過程中,當黑人和白人患者花費相同的情況下,模型給出的黑人患者的風險評分仍會低於白人患者。也就是,即使在風險相似的情況下,該模型也更傾向於選出更多白人患者進入護理計劃。

也就是說,在現實世界中存在的種族歧視、性別、年齡歧視、少數人群歧視等問題,不僅在AI演算法中存在,甚至還會通過一種更直接有效地方式放大。

AI演算法的“色差”體質,難道真的像LeCun所言,就是AI訓練的資料集的問題嗎?

AI“色差”從何而來?

在我們大多數人的意識中,科技通常是中立的。不管在全世界任何體制中、面對任何人群,科技遵循的規則都是客觀的、中立的,就像建造高樓要遵循力學結構原理,防禦新冠病毒要遵循科學檢測和消殺防護手段一樣。

偏偏AI這位科技領域的新寵,從誕生之日起就帶著神祕的演算法黑箱和挑戰人類智慧的巨集偉願景。同時不可避免地也帶有了人類設計者的主觀色彩和個人偏見。

在AI應用中,最顯而易見的一種人類性別偏見甚至都沒有上升到演算法層面,而僅僅在人類選擇AI助手中就暴露無遺。

現在,主要的智慧音響或者智慧裝置中的AI助手都預設為女性名字和女性聲音。當然,大多數使用者也都表現出對於女性聲音的偏好。但這一預設出廠設定隱含著一個來自現實社會的偏見,那就是人們更傾向於把女性設定為服務助理的角色,繼續強化了女性的次要地位和順從男性的角色定位。

在深入到那些由於AI影像識別演算法導致的種族歧視和性別歧視案例中,其實也可以發現AI演算法的決策過程以及匯入訓練資料的過程中都有研發者個人的價值觀、認知缺陷和偏見等因素參與其中。

比如,在PULSE進行高清影像生成的案例中,LeCun的解釋一定意義上是可能的,就是如果在訓練資料集中加入更多的黑人照片,那麼生成的照片可能會更多是黑人的膚色。但是,AI偏見的鍋也不能完全甩給資料偏差(LeCun在此的回應確實有點草率)。

AI藝術家Mario Klingemann通過驗證指出,PULSE將黑人影像生成為白人的問題,並非出自資料,而是演算法本身。他通過使用StyleGAN(PULSE也採用了英偉達的這一演算法)從相同畫素的奧巴馬影像中生成的更多是非白人照片。當然,Mario也不能真正指出到底是演算法在什麼情況下出現這種錯誤的。

在對LeCun的回應中,在AI正義聯盟工作的研究者Deborah Raji指出,AI的偏見受到更廣泛的社會不公正和偏見的影響,而不僅僅是使用“正確”的資料集來能解決更大的社會不公問題(當然Raji的指責也有點超綱)。

通過以上爭論,我們其實可以得出一個更折中的答案。AI是大規模帶標註的資料集訓練的產物,資料集中反映不同種族、性別的樣本資料佔比的失衡,確實將反映到AI演算法模型的結果當中,從而又會強化演算法模型對於某一類資料的判斷,而弱化對缺失資料的判斷。而訓練資料的偏見則來自於人類研究者對於資料的收集方式的偏頗。

在以往的資料收集,更多來自於研究者更為熟悉的人種,或者是網際網路上面的資料。但事實上,這些資料也並非“客觀中立”,而早已帶上了人類世界的“偏見”標籤。比如在谷歌中,搜尋CEO的圖片,絕大多數都是男性CEO,其比例要遠遠高於實際當中的男性CEO比例。而搜尋黑人名字,則往往會跟“犯罪”、“逮捕”等標籤繫結。此外,在英文搜尋中,其他少數族裔的資料也很少會被搜尋到。由此形成的資料集而訓練的模型將延續人類的偏見。

一個典型的案例就可以理解。去年,微軟、谷歌、亞馬遜等AI在識別低收入國家的物品上面,準確度要遠遠低於高收入國家的物品。不完整的資料集導致AI也會“嫌貧愛富”了。

也就是說,AI演算法和資料集的問題直接導致了偏見和歧視的出現,而導致AI演算法和資料集出問題的原因則來自於人類研究者一開始的認知缺陷和原始資料隱藏的偏見問題。

在BLM運動愈演愈烈的當下,AI偏見問題正從一個圈內被忽視的“頑疾”走出圈外,成為社會大眾關心的公平正義問題。那麼,這是否能成為解決這一問題的最好契機呢?

AI“色差”該如何“糾偏”?

客觀來說,想要真正清除AI演算法的這些“色差”偏見,難度極大。不然AI界也不會坐視這個問題的泛濫。不過,至少在美國非裔男子佛洛依德事件之後,科技公司已經開始意識到AI演算法帶來歧視問題的嚴重性了。

比如,IBM等公司就做了一件“釜底抽薪”的事情——既然AI(僅指人臉識別)有問題,那我不用還不行嗎?

(IBM現任執行長Arvind Krishna)

6月8號,IBM旗幟鮮明地宣告要徹底放棄人臉識別業務, “反對將面部識別技術在內的任何技術用於大規模監控、種族定性、侵犯基本人權與自由,或其他任何不符合我們價值觀和信任與透明原則的目的。”

隨後,亞馬遜和微軟也緊隨其後,只是打了折扣,宣告有條件地限制自己的人臉識別技術提供給美國警方使用。

IBM這種自絕於AI的方法,當然可以避免人臉識別技術在種族歧視上的濫用。但是一竿子打死AI並不能徹底解決問題。人臉識別在現實世界的應用既有普遍場景,也有重要作用。通過追根溯源,提高少數族裔和女性老人等群體的人臉識別準確度,不是更有意義嗎?

導致AI偏見的原因可能是複雜因素的集合,那麼解決AI偏見的“藥方”,自然也是需要多管齊下的。綜合來看,糾正AI偏見要從技術、立法和團隊三方面來整體改進。

在技術層面,豐富資料來源型別和規模,構建更公平的資料集,這成為解決AI偏見最直接、看起來也最可行的方式。

在立法層面,建立演算法問責制度,由AI組織成立專業機構實現對演算法的審查和監督。儘管歐洲的GDPR、美國的《演算法問責法案》已經有相關規定,但實際操作仍然存在難度,這就要求擁有AI演算法的科技企業在演算法透明性和可解釋性上做出巨大讓步。

在團隊層面,增加科技公司中AI團隊的人群多樣性,特別是女性和有色人種的比例,也許是解決這一問題的可行方法。畢竟,之前的AI技術大多是由西方白人男性主導,這很可能是導致美國眾多AI演算法帶有種族歧視、性別歧視的一個“隱含”原因(但並不能確定其中包含直接的因果關係)。

更為重要的是,在今後的演算法測試中,在公佈結果前,應該加入更多樣化的應力測試,包括增加對不同國籍、種族、膚色、性別、年齡等資料的測試,提前發現演算法中可能存在的認知偏見。

此外,通過開源社群和開源技術來消除AI偏見,也可能是一個不錯的思路。至少首先解決了AI演算法的透明性問題。同時,諸如像研究者提出的自動白箱測試技術——DeepXplore,可以增強了AI應力測試的強度,以驗證AI的黑盒問題,並消除可能帶來的偏見問題。這也是值得研究者們長期關注的問題。

在解決AI偏見的問題上,我們不可能抱著過於激進的態度,希望通過一次社會運動就能徹底推動技術界去消除這一技術問題,畢竟這一問題的根源更多是來自於人類自身。

我們的認知偏見其實要遠遠多於AI,而AI所做的就是“學會”並“放大”我們的偏見和歧視。因此,對於AI演算法訓練的糾偏就顯得刻不容緩,但又不能操之過急。正如AI演算法要經過一次次調參的過程來將訓練結果調整至越來越接近完美的準確狀態,AI的糾偏也需要這樣一個一步步緩慢調整的“調參”過程,只不過這個過程要更為複雜和艱辛。

在這個過程中,AI研究者首先是跟自己的認知盲區和個人偏見做鬥爭。如果你認為AI中存在的偏見不是什麼大問題的時候,它本身已經就是一個很大的問題了。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2701473/,如需轉載,請註明出處,否則將追究法律責任。

相關文章