伯克利最新研究:用演算法解決演算法偏差?公平機器學習的延遲影響

大資料文摘發表於2018-05-23

在一些敏感領域使用機器學習演算法的公平性常會引發巨大爭議。

近期頻頻登上頭條的幾項研究大多如此:比如利用演算法識別犯罪團伙或者,利用影象識別判定同性戀

這些問題的出現往往是因為歷史資料中的偏差特徵,比如種族和性別上的小眾團體,往往因此在機器學習預測中產生不利的歧視結果。在包括貸款,招聘,刑事司法和廣告在內的各種廣泛使用AI的領域,機器學習因其預測誤差傷害到了歷史上弱勢群體,而廣受詬病。

本月,在瑞典斯德哥爾摩舉行的第35屆機器學習國際會議上,伯克利AI研究協會發布了一篇論文,來試圖解決這一問題。

伯克利最新研究:用演算法解決演算法偏差?公平機器學習的延遲影響

這篇文章的主要目標,是基於社會福利的長期目標對機器學習的決策進行了調整。

通常,機器學習模型會給出一個表述了個體資訊的分數,以便對他們做出決定。 例如,信用評分代表了一個人的信用記錄和財務活動,某種程度上銀行也會根據信用評分判斷該使用者的信譽度。本文中將繼續用“貸款”這一行為作為案例展開論述。

如下圖所示,每組人群都有信用評分的特定分佈。

信用評分和還款之間的分佈

伯克利最新研究:用演算法解決演算法偏差?公平機器學習的延遲影響

上圖中,最上面的數字表示信用評分,評分越高表示償還能力越強。每一圓圈表示一個人,深藍色的圓圈表示將會償還貸款的人,淺藍色的圓圈表示將會拖欠貸款的人。

通過定義一個閾值,就可以根據信用評分進行決策。例如,向信用評分超過閾值的人發放貸款,而拒絕向信用評分低於閾值的人發放貸款。這種決策規則被稱為閾值策略。

信用評分可以被解釋為對拖欠貸款行為的估計概率。例如,信用評分為650的人中估計有90%的人可能會償還他們的貸款。

銀行就可以給信用評分為650的個人發放相同的貸款,並獲得預期的利潤。同樣,銀行可以給所有信用評分高於650的個人發放貸款,並預測他們的利潤。

貸款閾值和盈虧結果

伯克利最新研究:用演算法解決演算法偏差?公平機器學習的延遲影響

不考慮其他因素,銀行肯定會最大化自己的總利潤。利潤取決於銀行從償還貸款中獲得的金額與從拖欠貸款中損失的金額之比。在上面的動圖中,營收與虧損的比率的取值是-4~1。

當損失的成本相對高於收益成本時,銀行會更保守地發放貸款,並提高貸款閾值。我們稱信用評分超過該閾值的人群比例為選擇率(selection rate)。

信用評分變化曲線

是否發放貸款的決策不僅影響機構,而且影響個人。違約事件(借款人未能償還貸款)不僅會讓銀行損失利潤,也降低了借款人的信用評分。

按時償還貸款的行為會為銀行帶來利潤,同時也會增加借款人的信用評分。在本文的示例中,借款人信貸評分變化率為-2~1,-2表示拖欠貸款,1表示償還貸款。

對於閾值策略,評分結果(outcome)的定義是人群信用評分的預期變化,也是選擇率函式的一個引數,我們稱這個函式為結果曲線。每組人群的選擇率不同,信用評分曲線也不盡相同。

人群的平均信用評分變化結果既取決於還款的概率,也取決於個人貸款決策的成本和收益。

伯克利最新研究:用演算法解決演算法偏差?公平機器學習的延遲影響

上圖顯示了典型人群的評分結果曲線。當一組群體中有足夠人員獲得貸款併成功償還貸款時,該組的平均信用評分可能會增加。

在這種情況下,銀行的利潤還未達到最大值時,利潤與人群平均信用評分正相關。

當我們以利潤最大化為目標而向更多人發放貸款,平均信用評分增加到最大值。我們可以稱之為最佳互利點( altruistic optimum)。

為了繼續增加利潤,銀行還可以繼續發放貸款,但此時人群的平均信用評分將越過最大值開始下降,如上圖黃色虛線區域所示。

但選擇率在黃色虛線區域時,將對個人的信用評分造成相對損害。比如,如果有大多數人無法償還貸款,那麼該組人群的平均信用評分將下降,這與紅色區域的情況一樣。

貸款閾值與評分結果曲線

伯克利最新研究:用演算法解決演算法偏差?公平機器學習的延遲影響

給定的閾值策略如何影響不同群體中的個人?不同人群的信用評分有不同的分佈結果。

假設第二組人群的信用評分的分佈與第一組不同,並且人數也較少。我們可以認為這個群體是一個歷史上處於弱勢地位的少數群體。

我們用藍色部分表示這個群體,並希望確保銀行的貸款政策不會過度傷害他們的權益。

我們假定銀行為每個群體選擇了不同的閾值。儘管根據群體確定閾值可能面臨法律挑戰,但為了說明固定的閾值策略對不同群體的差異結果,我們不妨先根據群體來確定信用評分的閾值。

不同群體的貸款決策

伯克利最新研究:用演算法解決演算法偏差?公平機器學習的延遲影響

從上面的動圖中可以看出,有必要對藍色小組內人群的信用評分閾值的選擇進行改進。

正如上文所述,銀行的放貸政策始終以利潤最大化作為約束條件,因此銀行總會選擇達到盈虧平衡點的閾值策略,當個人的信用評分超過該閾值就可以發放貸款。

事實上,通過改變閾值發現,當銀行的利潤達到最大值時(Total profit = 281),兩個群體的放貸閾值(loan threshold:580)是相同的,但是選擇率卻不同,同一閾值策略下,藍色小組獲得貸款的人數更少,如下圖所示。

伯克利最新研究:用演算法解決演算法偏差?公平機器學習的延遲影響

公平標準

不同群體的信用評分的分佈不同,將獲得不同形狀的結果曲線(參見下圖中上半部分,顯示了由實際信用評分資料和簡單結果模型得出的結果曲線)。

為了改進利潤最大化作為約束條件的缺點,可以考慮公平約束條件,在一些目標函式下,這種約束條件可以使團體之間的決策相等。本文提出了各種公平標準來保護弱勢群體。通過結果模型,我們獲得了公平約束條件與評分結果曲線之間的關係。

常見的一個公平標準,人數均等,要求銀行以同樣的比例向兩個群體發放貸款,同時銀行也可以繼續實現利潤最大化。另一個標準,即機會均等,兩個群體之間可以償還貸款的人,銀行要提供相同的放貸比率。

模擬約束條件下的貸款決策

儘管這些公平標準是考慮均衡的一種靜態決策方式,但這種方式忽略這些政策對人群未來的影響。

下圖對比了最大利潤,人數均等和機會均等條件下的政策。動圖中展示了不同的貸款策略下對應的銀行利潤和信用評分變化。與最大利潤相比,人數均等和機會均等都會降低銀行的利潤。

伯克利最新研究:用演算法解決演算法偏差?公平機器學習的延遲影響

但是,人數均等和機會均等在利潤最大的條件下,是否改善了藍色人群的評分結果曲線?在利潤最大化的放貸策略中,藍色人群的平均信用評分在最佳互利點之前;在機會均等的放貸策略中,藍色人群的平均信用評分在最佳互利點之後;在人數均等的放貸策略中,藍色人群的平均信用評分落在了會降低評分的黃色區域。

如果採用公平標準的目標是增加或平衡所有人群的長期福祉,上述結果表明,有些情況下公平標準實際上違背了這一目標。

換句話說,公平約束條件也會減少弱勢群體的福利。構建一個準確的模型來預測決策對人群結果的影響,有助於緩解公平約束條件帶來的意外結果。

“公平”機器學習的結果

當提到“公平”機器學習時,我們旨在獲得長期的研究結果。如果忽略延遲結果對模型的細微影響,我們就無法預測公平標準作為分類系統的約束條件而產生的影響。結果曲線為我們提供了一種以最直接的方式改善利潤最大化標準的缺點。

結果模型是將某個領域的知識進行分類的具體方法。這與許多學者指出機器學習中公平性的語境感知的本質一致。結果曲線提供了一個可解釋的視覺效果,解決了交易領域內應用程式的公平性問題。

有關更多詳細資訊,請查閱論文的完整版本,該論文也將出現在瑞典斯德哥爾摩舉行的第35屆機器學習國際會議上。

相關報導:

http://bair.berkeley.edu/blog/2018/05/17/delayed-impact/

https://arxiv.org/pdf/1803.04383.pdf

相關文章