分析350萬本書110億個詞彙後,演算法揭示出語言中「男女有別」的偏見現象

药明康德AI發表於2019-10-12

性別歧視和性別刻板印象並不總是在生活中或媒體中出現。但如果你細心感受,你會發現人們用來形容男女的詞彙似乎大多數都帶有一些性別屬性。正如標題所說的,當人想要描述某一女性時,往往可能會說“漂亮的女人”或者“可愛的女孩”。而當想要描述某一男性時,往往會是“理性的男人”或者“勇敢的男孩”。長期以來,針對性別描述的語言一直是社會語言學的一個重要領域

分析350萬本書110億個詞彙後,演算法揭示出語言中「男女有別」的偏見現象圖片來源:Pexels

來自哥本哈根大學(University of Copenhagen)和其他大學的電腦科學家們根據一種新的機器學習演算法,對350萬本書展開了研究。研究結果顯示,描述男性時,通常會選擇用與他們行為相關的詞彙來描述,而女性則用與外貌相關的詞彙來描述。“美麗”和“性感”是描述女性時最常用的兩個形容詞,而“正直”、“理性”和“勇敢”則是描述男人時常用的詞彙。

哥本哈根大學的一位電腦科學家與來自美國的研究人員一起查閱了大量書籍,試圖找出文學作品中描述男性和女性的詞彙型別是否存在差異。他們使用一種新的計算機模型分析了一個包含1900年至2008年間出版的英文書籍的資料庫,其中包括小說和非小說文學。

“我們可以清楚地看到,用於形容女性的詞彙更多地是指向她們的外表,而不是那些用來形容男性的詞彙。“哥本哈根大學電腦科學Isabelle Augenstein教授說:”我們現在相當於是在統計學的意義上證實了一個普遍的看法。“

研究人員提取了與性別相關的形容詞和動詞,得到了例如“性感的空姐”或“愛閒聊的女孩”這樣的組合。然後,他們分析了這些詞是否具有積極、消極或中性的情緒,並逐個進行分類。

他們的分析表明,描述女性身體和外表相關的貶義詞彙的使用頻率是男性的5倍。在對男性的描述中,與身體和外貌有關的褒義和中性形容詞出現的頻率大約是描述女性的2倍,描述男性時最常使用的形容詞則是關於他們的行為和個人品質的。

分析350萬本書110億個詞彙後,演算法揭示出語言中「男女有別」的偏見現象最常用於描述男性和女性的不同詞彙(圖片來源:Alexander Hoyle et al.)在過去,語言學家通常會用相對較小的資料庫來研究性別化語言和偏見的流行程度。而現在,電腦科學家能夠運用機器學習演算法來分析大量的資料。例如,在這個研究中科學家們就分析了110億個詞彙。

Isabelle Augenstein教授指出,儘管許多書籍都是幾十年前出版的,但它們仍然發揮著積極的作用。以線上文字材料的資料,建立能夠理解人類語言的機器和應用程式的演算法,有望讓智慧手機識別我們的聲音,並提供關鍵字的搜尋建議。

“這些演算法具有識別模式,無論何時只要它識別到一個模式,就會認為它是存在的。如果這些模式中的任何一個指向有偏見的語言,那麼將會被分類到有偏見的類目之中。”Isabelle Augenstein教授說:“這些系統採用了我們人類使用的語言,也採用了人們對性別刻板印象和偏見。”

例如,當公司使用IT系統對求職申請進行分類時,如果用來描述男性和女性的語言不同,那麼這將影響著誰將獲得這份工作。隨著人工智慧和語言技術的應用在社會上的日益增多,能夠意識到性別化語言是非常重要的。Isabelle Augenstein教授表示,在開發機器學習模型時,我們可以嘗試減少使用有偏見的文字,或者將模型定義為忽略或抵消偏見文字,這樣的可行性會更高一些。

分析350萬本書110億個詞彙後,演算法揭示出語言中「男女有別」的偏見現象▲哥本哈根大學電腦科學系電腦科學家兼助理教授IsabelleAugenstein(圖片來源:哥本哈根大學官網)不過,研究人員指出這項分析還是具有侷限性,因為沒有考慮到是誰寫了這些文章,以及這些書是在資料庫時間軸的哪一段時間出版而存在的偏見程度差異。此外,這項研究也沒有根據文章的體裁來區分。研究人員目前正在根據這其中幾個有影響的分類專案進行進一步的研究。

題圖來源:Pexels

參考資料:

[1] Womenare beautiful, men rational. Retrieved Aug 28, 2019, from https://neurosciencenews.com/male-female-adjectives-14804/
[2] UnsupervisedDiscovery of Gendered Language through Latent-Variable Modeling Retrieved Aug 28,2019, from https://copenlu.github.io/publication/2019_acl_hoyle/

相關文章