MIT 因 AI 資料集涉嫌種族歧視致歉並宣佈永久下架

AIBigbull2050發表於2020-07-13
2020-07-02 18:13:43

純粹的科學研究和保持倫理標準並不相斥。

MIT 道歉並永久下線含偏見內容的資料集

近日,MIT 計算科學與人工智慧實驗室 CSAIL 宣佈永久下架一個高引用的用於訓練人工智慧系統的資料集。因為該資料集帶有一定偏見問題,其在訓練時可能使用涉及種族主義、女性歧視和其他有問題的術語。

據悉,該訓練資料集建立於 2008 年,包含 8000 萬張影像。其中包括一個更小版本的影像集(Tiny Images),有 220 萬張圖片,可以從 CSAIL 網站上搜尋和閱讀。這個包括 220 萬影像的視覺化資料庫,連同完整的可下載資料庫,在週一從 CSAIL 網站上被移除。

該資料集主要用以產生更先進、精確的物體檢測技術,能夠教會機器學習模型自動識別和列出靜態影像中描繪的人和物體。

本質上,它是一個巨大的照片集合,圖片帶有描述性的標籤,所有這些標籤都可以輸入到神經網路中,教會它們將圖片的模式與描述性標籤聯絡起來。不過,該系統可能會對女性、黑人和亞洲人使用侮辱性語言。該資料庫還包含女性隱私部位的特寫照片,這些照片上標有“c”字。

應用程式、網站和其他依賴於使用 MIT 資料集訓練的神經網路產品在分析照片和攝像機鏡頭時可能最終會使用這些術語。

這個資料集與 ImageNet 訓練集一起被用來作為計算機視覺演算法的基準。不過,與知名度更高的 ImageNet 不同的是,在此之前,還沒有人對這個影像資料集中有問題的內容進行仔細檢查過。

矽谷隱私初創公司 UnifyID 的首席科學家 Vinay Prabhu 和愛爾蘭都柏林大學的博士候選人 Abeba Birhane 仔細研究了 MIT 的資料庫後發現,數千張圖片的標籤上帶有對黑人和亞洲人的種族主義辱罵,以及用於描述女性的貶義詞彙。

MIT 因 AI 資料集涉嫌種族歧視致歉並宣佈永久下架

該圖顯示了 MIT 資料集中標有所選問題單詞的圖片數量。

他們在一篇提交給明年計算機視覺會議的論文中提到了一些細節,例如黑人和猴子的圖片標有“n”字;用粗糙的術語標註解剖部分等。這類影像不必要將日常情景與侮辱性語言聯絡起來,並將偏見植入未來的人工智慧模型中。

MIT 因 AI 資料集涉嫌種族歧視致歉並宣佈永久下架

這是 220 萬張影像資料集的視覺化截圖。這裡展示了一些資料集的“妓#女”標籤示例,出於法律和倫理原因,我們對其進行了馬賽克處理。這些照片包括一個女人,一個母親抱著她的孩子和聖誕老人的頭像照,色#情女演員和一個穿比基尼的女人等

CSAIL 的電子工程和電腦科學教授 Antonio Torralba 對問題資料集做出回應。他表示,實驗室根本沒有意識到資料集中存在這些冒犯性的影像和標籤。“我們真誠地道歉,並將資料集下線,以刪除違規圖片和標籤”。

在隨後的一份宣告中,CSAIL 表示道歉,並作出了永久下架涉事資料集的決定。

引起我們注意地是,Tiny Images 影像資料集包含一些貶義詞分類和冒犯的影像。這是依賴於 WordNet 中的名詞自動資料收集過程的結果。我們對此非常關注,並向可能受到影響的人們道歉。

由於資料集太大 (8000 萬幅影像),而影像太小 (32 x 32 畫素),人們很難從視覺上識別其內容。因此,人工檢查,即使可行,也不能保證令人反感的影像被完全刪除。

因此,我們決定正式撤銷資料集。它已離線,並且不會重新聯機。我們要求社群將來不要使用它,並刪除可能已下載的資料集的任何現有副本。

為影像資料集註釋的詞彙庫 WordNet 存在隱患

CSAIL 實驗室承認,他們在沒有檢查是否有攻擊性圖片或語言的情況下,從網際網路上自動獲取了這些圖片。

Vinay Prabhu 和 Abeba Birhane 在研究論文中也提到,這些影像是從谷歌影像中被抓取來的,排列在 75000 多個類別中。

這個資料集包含 53464 個不同的名詞,都是直接從 WordNet 複製過來的。普林斯頓大學將英語單詞分類成相關集的資料庫,然後這些系統就會自動從當時的網際網路搜尋引擎上下載相應名詞的圖片,並使用當時可用的過濾器來收集 8000 萬張圖片。

WordNet 是在 20 世紀 80 年代中期在普林斯頓大學的認知科學實驗室中建立的,這個資料庫基本上繪製了單詞之間是如何關聯的。不過,WordNet 中的一些名詞中帶有種族主義俚語和侮辱性詞彙。

幾十年後的今天,很多學者和開發人員將其作為方便的英語詞彙倉庫。構建巨大的資料集時,需要某種結構,在這種情況下,WordNet 提供了一種行之有效的方法,為計算機視覺研究人員分類和標籤他們的影像。

伴隨著 WordNet 的廣泛使用,其包含的問題術語也困擾著現代機器學習。

作為一個單詞列表,WordNet 本身可能沒那麼有害,不過當與影像和 AI 演算法結合在一起時,它可能會產生令人不安的後果。正如 Abeba Birhane 所說:“WordNet 專案的目的是繪製出彼此接近的單詞,但當你開始把圖片和這些詞聯絡起來時,你其實是在把一個真實的人的照片和那些有害的詞語聯絡起來,這些詞語會使人們的成見根深蒂固。”

ImageNet 也存在同樣的問題,因為它也是使用 WordNet 進行註釋的。

在這些巨大的資料集中,有問題的影像和標籤所佔的比例很小,很容易被當作異常現象而不予理會。然而,Vinay Prabhu 和 Abeba Birhane 認為,如果這些材料被用於訓練現實世界中使用的機器學習模型,可能會造成真正的傷害。”缺乏對權威資料集的關鍵參與,會對女性、種族和少數民族以及處於社會邊緣的弱勢個體和社群造成不成比例的負面影響。”

這些群體在 AI 訓練資料集中往往沒有得到很好的表示。這也是人臉識別演算法在識別女性和膚色較深的人時遇到困難的原因。今年早些時候,底特律的一名黑人因被面部識別軟體誤認為小偷嫌疑人,而被警察錯誤逮捕。

“人們不會考慮這些模型將如何應用,或者它可以用於什麼。“他們只是想‘哦,這是我能做的很酷的事情’。但當你開始深入思考時,你就會發現所有這些潛在的目的,並看到這些危害是如何顯現的”,Birhane 說。

像 ImageNet 這樣的大型資料集和 8000 萬張小圖片也經常在未經人們明確同意的情況下,透過從 Flickr 或谷歌圖片上抓取圖片來收集。Facebook 就僱傭了一些“演員”,這些“演員”同意將自己的面孔用於一個資料集,該資料集是為了教軟體檢測電腦生成的偽造影像。

Prabhu 和 Birhane 認為,社交網路的方法是一個好主意。學術研究不太可能有資金支付訓練資料。“我們承認,沒有完美的解決方案來建立一個理想的資料集,但這並不意味著人們不應該嘗試建立更好的資料集。

二人建議模糊資料集中的人臉識別,仔細篩選影像和標籤以去除任何冒犯性的內容,甚至使用真實的合成資料來訓練系統。

反種族歧視浪潮在科技界進一步蔓延

MIT 的行動表明,這場由美國黑人跪殺事件而引發的反種族歧視浪潮進一步蔓延到了學術界。

近日,反種族歧視的抗議在美國科技界愈演愈烈,多位科技圈大佬受到了波及。

6 月 29 日,圖靈獎得主、Facebook 首席 AI 科學家 Yann Lecun 宣佈,自己將退出推特。在做出這一決定之前,他在推特上已經經歷了長達 2 周的“罵戰”,這令他不堪其擾。“罵戰”爭執的焦點在於帶有種族歧視傾向的 PULSE 演算法引起爭議,而 Yann Lecun 被指責為其辯護。

PULSE 演算法由美國杜克大學科研團隊提出。該演算法能夠將 16x16 畫素的馬賽克人臉影像,轉換為 1024x1024 的高畫質影像,解析度提升高達 64 倍。新生成的人臉,毛孔、皺紋甚至一縷頭髮等細節都清晰可見,足以以假亂真。本質上,該演算法是運用了“對抗生成網路”(StyleGAN)工具,生成了看上去真實但實際上並不存在的人臉。

熱度剛起來沒多久,就有人發現了 PULSE 演算法存在的巨大漏洞。有網友發現,輸入模糊的奧巴馬照片,輸出時卻變成了一張白人面孔,而同樣輸入其他黑人或亞裔人的模糊人臉影像,輸出的無一例外都是白人頭像。這招致了廣泛的批評,ULSE 演算法被指帶有嚴重的種族歧視傾向。

爭議四起之時,Yann LeCun 發了一條推特分析 PULSE 為什麼會出現這樣的偏見 — 因為訓練資料集存在資料偏差。

沒想到卻意外“引火燒身”,Yann LeCun 的言論引起了不少科技界人士的不滿,他們認為,Yann LeCun 對於“AI 的公平性”的 理解過於片面。

後來,Yann LeCun 連發 17 條推文解釋自己的立場,但反對者並不買賬。最後只能無奈宣佈退出推特。

Yann Lecun 之後,谷歌 AI 掌門人 Jeff Dean 緊接著成為了下一個捲入風波的大佬。

事情的起因很有意思。哥倫比亞大學的一位黑人女性研究員、PresGAN 作者 ,Adji B. Dieng 因為 DeepMind 舉辦的一場 GAN 普及課程中沒有提及她的研究成果 PresGAN 而感到不滿,她認為其成果之所以被無視,主要是因為她是一個黑人女性。而也是因為種族歧視在,儘管她的論文已經發表 9 個月了,但被他人引用的次數僅有 3 次。

Adji B. Dieng 在推特上發文詰問 DeepMind。有一個理性的網友 Gwern 在去看了 Adji B. Dieng 的論文後發現,其論文水平不怎麼樣,引用次數少也在情理之中。Adji B. Dieng 也不甘示弱,她反譏 Gwern 是一個“優生主義者”。

Adji B. Dieng 還意外發現,谷歌的 AI 掌門人 Jeff Dean 竟然關注了 Gwern,於是她開始喊話 Jeff Dean,“你也關注了這個人,但我相信你不知道他是一個優生主義者”。就這樣,什麼也沒做的 Jeff Dean 被捲入到了輿論旋渦中。不少人質疑,Adji B. Dieng 這波操作有點強行“碰瓷”的意思。

從 Yann Lecun 推特、Jeff Dean 無辜 “躺槍” 再到 MIT 道歉,近期在科技界密集發生的輿論風波也在一定程度上表明,這場反種族歧視浪潮似乎有些變味了,變得有些混亂了。借用 Prabhu 和 Birhane 的一個判斷結束此文, 從事良好的科學研究和保持倫理標準並不相互排斥。





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2704095/,如需轉載,請註明出處,否則將追究法律責任。

相關文章