隨著人工智慧的發展,自然語言處理技術已在翻譯、情感分析等多個領域進步,逐漸提高相關應用的質量,並正在日益影響人們的社會生活。然而,科研人員發現在機器學習人類語言的同時,也習得了人類語言中隱藏的刻板印象。帶有這樣偏見的自動化演算法如果被應用到實際生活中的話,很有可能擴大這種偏見,造成不良的社會後果。AI 科研群體非常關注這一問題,並在近幾年來不斷討論、改進解決方案。這篇推送中筆者將會介紹兩篇這一領域中的經典論文,藉此希望可以讓讀者對於當前科研人員在消除演算法刻板印象上的努力有一定的瞭解,也對 AI 和社會的關係帶來一些思考。第一篇論文發現並消除了詞嵌入中的社會偏見問題,第二篇論文發現並消除了視覺相關任務中使用結構預測模型中偏見放大的問題。
以下是筆者的觀點和結論:
在用於訓練人工智慧的資料集中存在社會的已有偏見,這是普遍存在並需要大家關注、解決的問題。取決於不同應用,具體解決方案可能有所不同。
機器學習可以幫人們發現了原本大家以為在語庫中不存在的偏見,而不會憑空創造偏見。
有時機器學習演算法會放大已有的社會的偏見,值得警惕。
近期科研人員在推進演算法公正/消除偏見方面做了頗多努力,相比幾年前進展頗多;然而對於偏見如何產生的背後原理尚無定論,所以這個方向的科研還將繼續。
論文 1:男人之於程式設計師相當於女人之於家政人員?消除詞嵌入中的偏見 (Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings)
連結:https://arxiv.org/abs/1607.06520
摘要:盲目使用機器學習演算法有很高的風險會放大訓練資料中已有的偏見。詞嵌入 - 一種在機器學習和自然語言處理中流行的、用向量表示單詞的方法 - 就很有可能帶來這樣的危險。我們發現即便是在谷歌新聞(這樣正式的文體)上訓練出的詞嵌入都表現出了強到令人不安的性別刻板印象。廣泛使用這樣的詞嵌入可能會放大這種偏見,因此這個問題值得我們關注。首先,從幾何角度上來講,性別偏見可以被一個(詞嵌入所在向量空間的)方向所表示。其次,性別中立單詞與定義中帶有性別的單詞線性可分。用這兩個性質,我們提供了一種可以消除性別刻板印象的方法,例如「接待員」與「女性」的關聯,而保留我們所希望的關聯,例如「王后」和「女性」。我們定義了一種詞嵌入中量化直接與非直接偏見的標準,並且開發了一個可以消除這類偏見的演算法。在眾包評估和標準資料集中,我們經驗性地展示了我們的演算法可以在顯著降低性別偏見的同時保留很多它其他本來具有的性質,比如對相關概念的聚類和解決類比任務。我們提供的詞嵌入可以被使用在各類任務中而不帶有已有的社會偏見。
詞嵌入 (word embeddings) 模型為一個個離散單詞找到對應的實數向量,使得:1. 相近的詞語對應相近的向量,比如「媽媽」和「母親」作為同義詞具有相近的實數向量。2. 可以透過向量的加減完成類比任務,比如:man - woman = king - queen (為方便格式排版,每個單詞都是一個實數向量) - 對應常識中:男性之於女性(等於)國王之於王后。這個演算法幫助更加有效的囊括了各個單詞的含義,但同時也學到了我們不想要的性別偏見,比如 man - woman = computer programmer - homemaker。這有可能在應用中帶來糟糕的社會後果:在一個假想的搜尋應用中尋找和程式設計師相似的人的材料,演算法可能會據此把男性排在女性之前。舉個例子,一個程式設計師叫 Mary,另一個叫 John,他們作為程式設計師的專業水平一模一樣;但是因為 John 這個名字更男性,演算法有可能因此認為他的個人材料就更加接近程式設計師一點,導致 John 在之後和 Mary 的競爭中帶有優勢。然而,這並不公平,因為我們應該根據一個人的實際水平進行排序:把性別/名字直接作為排序依據顯然是帶有偏見的。
論文首先發現性別偏見幾乎可以被一個(詞嵌入所在向量空間的)方向 g 所表示;具體來說,所有與性別相關的關係,無論是定義上的還是偏見上的,如兒子之於女兒(定義),國王之於王后(定義)或棒球之於壘球(偏見)程式設計師之於家政人員(偏見),這些單詞對應的向量的差都基本與 g 平行。據此,這篇論文量化地定義了兩種偏見:1. 直接偏見:一個本應性別中性的詞在 g 方向上的投影 2. 隱形偏見:兩個詞之間的相似度多大程度可以由性別 g 方向上的投影解釋(比如」接待員「和「壘球」很相似,因為它們都在 g 方向上有很強的女性刻板印象)。文章提出的解決方案也很直截了當:對於本應性別中立(比如職業等)的詞,直接把 g 分量減掉,留下與 g 垂直的部分;對於定義中不性別中立的詞(如女皇、兒子)等,對每組只包括性別差異的詞(如 {兒子,女兒},{父親,母親})取平均值再按比例加上本來在 g 上的投影(具體公式詳見論文第 12 頁 step 2a)。這樣的演算法可以消除大多數直接/間接偏見,但同時保持詞嵌入可以做類比任務的性質。
筆者認為,在這篇論文發表之前,事實上並沒有多少人會覺得在谷歌新聞這樣正式的文體中存在多少性別偏見,而機器學習演算法卻發現了它。尤其有趣的是,淺層的共同出現資料(「co-occurence statistics」)並不能解釋詞嵌入中所有的偏見:」男性護士「這個片語出現頻次要遠大於「女性護士」,但依然詞嵌入中「護士」依然帶有很強的和女性的關聯性。這樣來看,機器學習演算法其實幫助人們發現了本來大家以為在語庫中不存在的偏見。另一方面,論文發現了 g 分量這一個和性別偏見有關的分量,但修復了這個問題並不代表詞嵌入中的偏見消失了 - 這可能只是眾多問題中的一部分,偏見有可能以其它非線性的方式出現:在 g 方向上沒有偏見並不代表偏見不會以其他方式在詞嵌入中存在。在理想情況下,我們應該從訓練過程和資料中偏見產生的第一性出發 (first principle) 去消除偏見,而不是在訓練完之後發現症狀並解決症狀,因為很有可能「治標不治本」(比如使用那些能解釋為什麼詞嵌入向量加減能完成類比任務的模型來從理論上根本去除偏見)。
論文 2: 男性也喜歡購物:用語庫層面的限制減少性別偏見的放大 (Men also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraint)
連結:https://arxiv.org/abs/1707.09457
摘要:語言文字越來越多地被用來定義各種各樣豐富的視覺識別任務;這些任務的圖片資料集一般從網上採集。在這些任務中研究者經常使用結構化預測模型 (structured prediction models),因為其可以很好的利用標籤和圖片的相關性;但這些模型卻無意間增加了習得網路資料集中的社會性偏見的風險。在這篇論文中,我們主要研究了多標籤物體分類 (multi-label object classification) 和視覺語義標註 (visual semantics labelling) 中的資料和模型。我們發現 a) 這些資料集中有非常顯著的性別偏見 b) 在這個資料集上訓練的模型會進一步放大這些偏見。舉個例子,在訓練資料集中做飯有 33%(absolute percentage) 更多可能和女性有關;而當訓練好的模型在測試時,該差別得到了放大,高達 68%。我們提出了一種加入語庫層面限制的方法來校正已有的結構化預測模型,並用拉格朗日鬆弛技術 (Lagrangian Relaxation) 對整個測試集一起進行預測。我們的演算法表現相比改進前沒有任何下降,但在多標籤物體分類和視覺語義標註的兩個問題上將偏見放大分別減少了 47.5% 和 40.5%。
視覺語義標註 (visual semantics labelling) 是指,給定一張圖片,機器演算法給出圖片的描述「誰在哪裡怎樣幹什麼」(見圖片)。比如第一張圖中:一位 [女性](人物)在 [廚房](地點)手拿 [抹刀](工具),用 [爐灶](加熱工具)熱 [通心粉](食物);演算法需要給出」[]」中的文字內容。然而這項任務中有兩個潛在問題:1. 資料本身有一定性別偏見,比如三分之二的情況下正在做飯的是女性。(比如在下圖中五分之三的做飯的人是女性)2. 演算法可能會放大這種偏見;一個訓練好的 Conditional Random Field(條件隨機場)會預測 84% 的做飯的人是女性,放大了訓練資料中三分之二的比例。(比如在下圖中五分之四的演算法預測是女性,儘管圖四種正在燒飯的是男性)。
為解決這一問題,作者首先量化定義了資料中的偏見和演算法對於偏見的放大。首先作者假設訓練和測試機率分佈相近。在以上做飯的例子,有 66% 的資料中是女性,而預測中 84% 的是女性,則資料中的偏見則被定義為 66%,演算法偏見的放大量則是 84%-66%=28%。為解決這一問題,作者提出在對測試集進行預測的時候對所有資料一起進行預測,來保證測試集上性別的比例和訓練集中的比例一樣(因為已經假設了訓練和測試的機率分佈相同);這也就是文章標題中「語庫層面限制」的意思。從技術細節上來說,作者將「保證測試集上性別比相同」這一條件作為線形約束加在預測過程中,並用拉格朗日鬆弛技術 (Lagrangian Relaxation) 進行線形最佳化(詳見論文公式 3)。作者發現使用這個演算法保證了偏見基本沒有被放大,而且總體演算法準確率也沒有下降。
筆者認為,發現資料中的偏見並非難事,但是發現了演算法會將其放大偏見、並提出了一種不傷害總體準確率的修改方案則在當時非常具有創新性,調整了大家對於演算法偏見的理解:1. 演算法雖然不會憑空創造偏見,但也不一定會保持訓練集中的偏見;很有可能它會放大這種偏見。2. 消除演算法偏見不一定會導致準確率下降。這篇論文也因此被評為 EMNLP2017 Best Paper。然而,「強行」保證在測試集上保持和訓練集上同樣的偏見這一做法並不一定能被廣泛使用,因為現實生活中訓練和測試集機率分佈很有可能不同,而且在理想情況下演算法應該只依據一張圖片而不是同時考慮其他多個圖片來給出預測。
結語:以上僅僅是 NLP Fairness 領域中眾多優秀論文中的兩篇,科研人員也在其他應用中作出了很多消除社會偏見的努力,比如機器翻譯、自動作文評分系統等;性別偏見也只是諸多刻板印象中的一種,其他的刻板印象包括民族、宗教和地域等;另外,關於偏見如何產生、是否應該在一個應用中消除偏見、以及應該以什麼樣的方式消除偏見,學界現在都還尚無定論。諸多有關社會偏見的挑戰依舊未被解決,這一領域的科研也將不斷繼續下去。
作者簡介:鍾瑞麒、陳彥達、施鈞耀均為哥倫比亞大學計算機系本科生