為什麼演算法的公平性令人難以捉摸?

AIBigbull2050發表於2019-12-17
2019-12-14 15:14:13

演算法公平性,從根本上來講,是一個社會道德問題。

為什麼演算法的公平性令人難以捉摸?

作者 | Amber Cazzell

譯者 | 蘇本如,責編 | Elle

以下為譯文:

2016年,谷歌照片將兩名非裔美國人的照片歸類為“大猩猩”。兩年後,谷歌除了從分類資料庫中將 “大猩猩”一詞刪除外,沒有做任何更多的事情。資料顯示,亞馬遜曾在2016年,不成比例地向歐美消費者提供了一天的免費送貨服務。在佛羅里達州,根據累犯的風險推薦拘留和假釋決定的演算法在非裔美國人中顯示出較高的錯誤率 ,因此非裔美國人更可能被錯誤地推薦拘留,而這些人實際上可能不會再繼續犯罪。當從一種帶有“性別中性”代詞的語言,翻譯成帶有“非性別中性”代詞的語言時,谷歌的word2vec神經網路在翻譯時注入了一些性別型別,當與“醫生”(或“老闆”、“金融家”等)一起使用時,代詞變成“他”,而當與“護士”(或“家庭主婦”或“保姆”等)一起使用時,代詞就變成了“她”。

為什麼演算法的公平性令人難以捉摸?

這些問題是由一系列原因引起的。有些是潛在的社會根源;如果你在一個有偏見的人建立的資料模型上訓練機器學習演算法,你會得到一個有偏見的演算法。有些只是統計性偏差;假如你要訓練一種機器學習演算法來找到最適合整體人口的方法,但是如果少數群體在某種程度上是不同的,那麼他們的分類或推薦就必然會有較差的適合性。有些是兩者的結合:有偏見的人會導致有偏見的演算法,這些演算法提出的建議加強了不合理的分類(例如,對貧困社群更嚴厲的監管會導致這些社群有更多的犯罪報告。而更多的犯罪報告又會觸發警務分析,建議在這些社群部署更多的警察,你看!這樣你就得到了一個討厭的反饋迴圈)。問題的根源在於根本不知道如何使演算法做到公平。針對這方面,有關演算法公平性的對話已經成為社會道德的一面放大鏡。而關於如何定義和衡量演算法公平的爭論反映了今天正在進行的更廣泛的道德對話。

最近,我有幸採訪了史丹佛大學Sharad Goel 。我們談到了他在演算法公平性方面的一些應用工作。我們還特別地針對演算法公平性概念化爭論的三個方面的好處和缺點,進行了討論。技術人員可以從Sharad Goel的<a href=" .com/papers/fair-ml.pdf" h"="">這篇文章 中找到對這一爭論的更全面的闡述,但我將在本文中嘗試將其總結一下。

為什麼演算法的公平性令人難以捉摸?

演算法公平性的三個概念

特定群組標籤應該禁止使用。這種認知模式認為,在進行預測時,不應該允許演算法考慮某些受保護的類別。從這個角度來看, 比如說,用於預測貸款資格或累犯的演算法不應該允許基於種族或性別的預測。這種實現演算法公平性的方法是直截了當和容易理解的。但它主要有兩個問題:

1.區分受保護類別的可接受和不可接受的替代物。即使從演算法中消除了這些類別,由這些受保護類別解釋的統計方差也傾向於滑入其他可用變數中。例如,雖然種族可能被排除在貸款申請之外,但郵政編碼往往與種族高度相關,它可以在模型中承擔更高的預測權重並掩蓋了歧視。無論出於何種目的,郵政編碼都將成為新的種族變數。什麼是保護類別的非法替代品?什麼是是可接受的、不同的變數?這是很有挑戰性和值得商榷的問題。這條模糊的線給我們帶來了另一個讓某些標籤成為“禁區”的問題;

2. 社會(有時是個人)的成本很高。受保護的類別通常會對演算法設計用來預測的行為產生重大的影響。例如,眾所周知,男性司機的保險費較高,因為男性司機確實佔到了保險支出總額的大部分。從這些演算法中消除性別會導致男性司機的汽車保險費下降,但會增加女性司機的保險費率。是否應該要求婦女支付超過其風險份額的費用,並將性別因素從風險演算法中排除出去?這是一個值得商榷的問題。簡言之,雖然這可能創造完全的平等,但這似乎沒有達到按比例公平的標準。所以有人可能會說,這種做法實際上是不公平的。

在刑事司法環境中,這種風險可能更大。從預測累犯的演算法中刪除性別或種族等受保護的類別會降低演算法的效率,這意味著更多的實際風險較低的人會被拘留,更多的實際風險較高的人會被釋放。其後果將是:(在總體上)更多的犯罪會發生,特別是在已經經歷更高犯罪率的社群中。要認清這一點,請記住,大多數 暴力犯罪發生在相互認識的人之間。因此,在演算法效率降低時(儘管可以解釋,但是受保護的類別仍然是不允許使用的),已經飽受 暴力犯罪困擾的社群可能會經歷額外的重新(暴力)犯罪。

大多數人(包括法律)都認為,在沒有具體理由的情況下,根據受保護的類別做出決定,在道德上是應該受到譴責的。困難的是,當使用這些保護類別時,似乎可以有效地減少有害後果。這種取捨導致一些人採取了另一種方法來從演算法上定義公平性。有沒有辦法可以最大限度地提高預測準確度(允許包含有理由的保護類別),同時仍然保持演算法的公平性呢?

演算法表現對特定群組應該同樣有效。與忽略諸如種族和性別之類的受保護類別(例如色盲法-不區分膚色,或性別盲法-不區分性別)相反,這種公平性的方法認為,針對受保護的類別,演算法表現的指標應該是相等的。例如,一個將罪犯分為高重犯風險和低重犯風險的演算法應該使白人和黑人罪犯的預測誤差相等。這種方法比色盲方法更不直觀,但至少理論上使得演算法在其預測時更有效,並且避免了一些棘手的判斷要求的一些替代物帶來的歧視,而那些替代物(例如郵政編碼作為種族的粗糙替代物)是不允許用在演算法中的。

為什麼演算法的公平性令人難以捉摸?

不過,這種方法並不完美。要了解原因,很重要的一點是要了解不同的群組將代表不同的人群,他們的平均得分、偏差、偏度、峰度等都不同(見上圖,想象一下使用相同的截止閾值(cutoff threshold)嘗試讓一個演算法對每個群組曲線有同樣的表現)。一般來說,當我們談到公平性時,我們希望所有的人,不管他們屬於哪個群組,都能遵守同樣的標準。但是,如果對不同的人群使用相同的截止閾值,演算法的預測能力和錯誤率很可能在不同的人群中有所不同 - 這只是統計工作方式的自然結果。如果 政府監管迫使企業開發出來的演算法,針對受保護的群組也能保持相同的表現,那麼企業和機構就會被激勵去採取故意歧視的做法,利用那些統計技巧和員工保密條款的灰暗地帶大做文章。

通常這些公司和機構有兩個選擇:1.透過玩弄程式碼降低演算法的質量和效率,從而使演算法針對不同群組都會有相同的表現(這個選擇會產生前面討論的潛在危害,例如導致高風險評分的累犯被釋放),或者2.公司可以對不同的人群採用不同的演算法閾值,這樣不同的人群(不同性別、種族、性取向的人群,等等)的截止閾值是不同的。但很明顯,這似乎違背了公平的觀念,通常在道德層面是不受歡迎的,並且也被認為是非法的(但有一個明顯的例外是針對類似平權行動的演算法)。對演算法表現的強制均衡造成的對所有群體的負面影響不僅僅是理論上的,它們已經被記錄在案。例如,在累犯風險評分資料庫,以及預測警察在白人和黑人公民中發現違禁品可能性的資料庫中。

為什麼演算法的公平性令人難以捉摸?

演算法評分對不同群組的成員應該代表相同的東西。實現演算法公平性的第三種方法是確保演算法評分對所有受保護的類別都意味著相等的東西(例如,在其保險申請中獲得風險評分X的女性,應該與在其保險申請中也獲得風險評分X的男性有相接近的保險支出)。從表面上看,這種做法似乎達到了我們想要的目的,似乎是公平的。問題是,在存在故意歧視行為的情況下,它無法保證公平,因此,根據公平的這一定義對演算法進行監管仍將為模糊的歧視性待遇留下空間。至少存在兩種可能發生的方式:

1. 替代物(如不同種族的郵政編碼)仍然可以用於不公平地設定人群評分使其高於或低於演算法的截止閾值。例如,貸款違約風險較高的個人可以與貸款違約風險較低的個人配對,這樣受保護類別的風險評分可以隨意推高或低於臨界閾值。這本質上可以歸結為觸碰了演算法紅線。

為什麼演算法的公平性令人難以捉摸?

2. 如上所述,不同的群組將有不同的統計風險曲線。如果量化評分在群組內離散化(例如,用“高”、“中”或“低”標籤代替個人的準確評分),真實風險曲線上的這些差異可以掩蓋不同的群體界限,同時保持一個虛假的外表,被貼上“高”風險標籤的個人再次犯罪、違約,不同的受保護類別((種族、性別等)以相似的比率發生車禍。例如,在上圖中,基於群組內部的百分比給一個人分配一個“高”、“中”或“低”風險標籤將有效地產生不同的群組截止閾值,同時潛在地保持每個受保護群組在那些標記為“高”風險時的演算法表現相同。

雖然對B2C公司來說,使用這些技術似乎有點罕見,但是B2C公司往往會因為在這些方面的歧視而蒙受利潤損失,所以對B2B公司而言,仍然存在使用這些技術的動機。例如,廣告匹配公司就有動機,將特定的群體推到高於或低於臨界值的水平,以便證明基於受保護類別定位廣告目標的合理性。不難想象,政治家們或遊說者會被這些方法的力量所吸引,從而利用它們來左右輿論,同時留下很少的把柄,或者錯綜複雜的迷霧。(我只是說,如果美國參議員無法理解Facebook的商業模式,我對他們理解這一問題的信心是……嗯,不樂觀。)

為什麼演算法的公平性令人難以捉摸?

演算法公平性面臨的挑戰

每種定義演算法公平性的方法都有其優缺點。我認為最令人不安的不是每種方法所面臨的弱點,而是這些方法從根本上說是互不相容的。當使用受保護類別作為檢測演算法公平性的基線時,我們不能忽略受保護類別。我們不能要求相似的演算法錯誤率,同時要求相似的風險評分在群組間必然會產生相似的結果。定義演算法公平性的競賽還在進行中。但我的道德心理學背景也讓我停下來思慮再三。民主黨人、共和黨人和自由主義者對什麼是演算法公平性無法達成一致,而我也認為把演算法公平性當作一個數學和電腦科學問題來對待有點過於樂觀了。問題不在於解決一些複雜的統計學魔方難題,而在於它試圖在一個只能捕捉陰影的洞穴牆上體現柏拉圖式完美的公平形式。很難預測我們會採用哪種解決方案,以及當這些解決方案與監管和經濟激勵措施相互作用時,會產生什麼樣的成本。演算法公平性,從根本上來講,是一個社會道德問題。

原文:: .com/why-algorithmic-fairness-is-elusive-sf7v323b






來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2668974/,如需轉載,請註明出處,否則將追究法律責任。

相關文章