分析350萬本書110億個詞彙後，演算法揭示出語言中「男女有別」的偏見現象

药明康德AI發表於2019-10-12

原文網址 : https://www.jiqizhixin.com/articles/2019-10-12-3

性別歧視和性別刻板印象並不總是在生活中或媒體中出現。但如果你細心感受，你會發現人們用來形容男女的詞彙似乎大多數都帶有一些性別屬性。正如標題所說的，當人想要描述某一女性時，往往可能會說“漂亮的女人”或者“可愛的女孩”。而當想要描述某一男性時，往往會是“理性的男人”或者“勇敢的男孩”。長期以來，針對性別描述的語言一直是社會語言學的一個重要領域。

分析350萬本書110億個詞彙後，演算法揭示出語言中「男女有別」的偏見現象圖片來源：Pexels

來自哥本哈根大學（University of Copenhagen）和其他大學的電腦科學家們根據一種新的機器學習演算法，對350萬本書展開了研究。研究結果顯示，描述男性時，通常會選擇用與他們行為相關的詞彙來描述，而女性則用與外貌相關的詞彙來描述。“美麗”和“性感”是描述女性時最常用的兩個形容詞，而“正直”、“理性”和“勇敢”則是描述男人時常用的詞彙。

哥本哈根大學的一位電腦科學家與來自美國的研究人員一起查閱了大量書籍，試圖找出文學作品中描述男性和女性的詞彙型別是否存在差異。他們使用一種新的計算機模型分析了一個包含1900年至2008年間出版的英文書籍的資料庫，其中包括小說和非小說文學。

“我們可以清楚地看到，用於形容女性的詞彙更多地是指向她們的外表，而不是那些用來形容男性的詞彙。“哥本哈根大學電腦科學Isabelle Augenstein教授說：”我們現在相當於是在統計學的意義上證實了一個普遍的看法。“

研究人員提取了與性別相關的形容詞和動詞，得到了例如“性感的空姐”或“愛閒聊的女孩”這樣的組合。然後，他們分析了這些詞是否具有積極、消極或中性的情緒，並逐個進行分類。

他們的分析表明，描述女性身體和外表相關的貶義詞彙的使用頻率是男性的5倍。在對男性的描述中，與身體和外貌有關的褒義和中性形容詞出現的頻率大約是描述女性的2倍，描述男性時最常使用的形容詞則是關於他們的行為和個人品質的。

分析350萬本書110億個詞彙後，演算法揭示出語言中「男女有別」的偏見現象 ▲最常用於描述男性和女性的不同詞彙（圖片來源：Alexander Hoyle et al.）在過去，語言學家通常會用相對較小的資料庫來研究性別化語言和偏見的流行程度。而現在，電腦科學家能夠運用機器學習演算法來分析大量的資料。例如，在這個研究中科學家們就分析了110億個詞彙。

Isabelle Augenstein教授指出，儘管許多書籍都是幾十年前出版的，但它們仍然發揮著積極的作用。以線上文字材料的資料，建立能夠理解人類語言的機器和應用程式的演算法，有望讓智慧手機識別我們的聲音，並提供關鍵字的搜尋建議。

“這些演算法具有識別模式，無論何時只要它識別到一個模式，就會認為它是存在的。如果這些模式中的任何一個指向有偏見的語言，那麼將會被分類到有偏見的類目之中。”Isabelle Augenstein教授說：“這些系統採用了我們人類使用的語言，也採用了人們對性別刻板印象和偏見。”

例如，當公司使用IT系統對求職申請進行分類時，如果用來描述男性和女性的語言不同，那麼這將影響著誰將獲得這份工作。隨著人工智慧和語言技術的應用在社會上的日益增多，能夠意識到性別化語言是非常重要的。Isabelle Augenstein教授表示，在開發機器學習模型時，我們可以嘗試減少使用有偏見的文字，或者將模型定義為忽略或抵消偏見文字，這樣的可行性會更高一些。

分析350萬本書110億個詞彙後，演算法揭示出語言中「男女有別」的偏見現象 ▲哥本哈根大學電腦科學系電腦科學家兼助理教授IsabelleAugenstein（圖片來源：哥本哈根大學官網）不過，研究人員指出這項分析還是具有侷限性，因為沒有考慮到是誰寫了這些文章，以及這些書是在資料庫時間軸的哪一段時間出版而存在的偏見程度差異。此外，這項研究也沒有根據文章的體裁來區分。研究人員目前正在根據這其中幾個有影響的分類專案進行進一步的研究。

題圖來源：Pexels

參考資料：

[1] Womenare beautiful, men rational. Retrieved Aug 28, 2019, from https://neurosciencenews.com/male-female-adjectives-14804/

[2] UnsupervisedDiscovery of Gendered Language through Latent-Variable Modeling Retrieved Aug 28,2019, from https://copenlu.github.io/publication/2019_acl_hoyle/

運維中的“後見之明”現象
2022-09-01
運維
Python語言中=和==有什麼區別?
2024-01-30
Python
R語言中的生存分析
2018-10-10
R語言
C語言中迴圈語句while 中判斷條件出現 || 和 && 的區別
2024-04-05
C語言While
python語言中基本資料型別有哪些?
2022-05-20
Python資料型別
業務分析中有關詞彙表的常見問題 - modernanalyst
2021-03-08
NaN
現象級英語社群|每日一詞educated20181211
2018-12-11
演算法偏見就怪資料集？MIT糾偏演算法自動識別「弱勢群體」
2019-01-28
演算法MIT
一段C語言和彙編的對應分析，揭示函式呼叫的本質
2021-09-09
C語言函式
MySQL update一個詭異現象的分析--個人未分析出
2023-01-06
MySql
go 語言中預設的型別識別
2018-06-04
Go型別
Python 語言中的 “鴨子型別”
2018-11-05
Python型別
C語言中的資料型別
2024-08-23
C語言資料型別
認知偏見之行動偏見
2022-04-26
雷達氣象相關詞彙（一掃描模式）
2024-08-08
模式
雷達氣象相關詞彙（二偏振參量）
2024-08-08
Go 語言中常見的幾種反模式
2021-03-31
Go模式
一個詞彙的嬗變
2019-03-14
Go 語言中，有時 nil 並不是一個 nil
2020-08-10
Go
C語言中的關鍵字有哪些，分別代表什麼意思
2024-07-29
C語言
Python語言中的模組、包、庫之間有什麼區別？
2022-02-11
Python
英語六級核心詞彙
2020-09-17
人類本性都有傲慢與偏見，那麼人工智慧會有偏見嗎？
2019-06-25
人工智慧
go語言中變數前加 *和& 有啥區別啊
2019-07-16
Go變數
Python學習教程_Python語言中=和==有什麼區別?
2022-01-10
Python
C語言中陣列首地址和陣列第一個元素的地址有什麼區別
2020-12-15
C語言陣列
Go 語言中的格式化輸出
2019-12-22
Go
go語言中make和new有什麼作用以及區別？
2024-08-15
Go
現象級每日一詞：shift (n.)
2018-11-06
C語言中Pointer, Array，String and Structures的區別
2018-06-10
C語言Struct
Python語言中/與//的區別是什麼?
2022-01-04
Python
c語言中陣列的三種型別
2021-09-11
C語言陣列型別
計算機常用英語詞彙 —— 資料結構與演算法
2019-01-15
計算機資料結構演算法
Go 語言的詞法分析和語法分析(1)
2021-03-23
Go詞法分析語法分析
分析go中slice的奇怪現象
2018-10-15
Go
Go語言中時間輪的實現
2021-02-13
Go
hash 表在 go 語言中的實現
2021-04-16
Go
現代世界50種認知偏見
2021-12-20

分析350萬本書110億個詞彙後，演算法揭示出語言中「男女有別」的偏見現象

相關文章