機器之心轉載
來源:科研圈
史丹佛大學和馬薩諸塞大學阿姆赫斯特分校合作團隊開發出一種方法,可以將模糊的目標進行量化,幫助機器學習演算法更好地完成避免歧視或調節血糖等複雜任務。
圖片來源:Deboki Chakravarti
得益於機器學習演算法日益強大的能力,人工智慧已進入了主流商業。機器學習演算法使計算機能夠訓練自己完成諸如駕駛汽車,控制機器人或自動化決策等工作。
但是隨著人工智慧開始處理一些敏感任務,例如幫助選擇哪些囚犯獲得保釋,政策制定者堅持要求電腦科學家提供保證,確保自動化系統的設計能夠避免或最大程度地減少不希望的後果,例如過高的風險或種族和性別偏見。
由史丹佛大學(Stanford University)和馬薩諸塞大學阿姆赫斯特分校(University of Massachusetts Amherst)的研究人員領導的團隊於 11 月 22 日在《科學》雜誌上發表了一篇論文,在這方面提出了一些建議。論文概述了一種新技術,可用於將諸如避免性別偏見之類的模糊目標轉化為精確的數學標準,從而使機器學習演算法可以訓練人工智慧應用程式來避免這種行為。
史丹佛大學電腦科學助理教授、該論文的資深作者 Emma Brunskill 表示:「我們希望推動人工智慧的發展,尊重人類使用者的價值觀並證明我們對自主系統的信任是合理的。」
避免錯誤行為
這項工作的前提是,如果可以用數學方式定義「不安全」或「不公平」的結果或行為,那麼就應該有可能建立相應的演算法,可以從資料中學習如何避免不想要的結果,並具有很高的可信度。研究人員還希望開發一套技術,方便使用者指定他們想要怎樣的行為約束,使機器學習設計者可以放心地使用過去的資料訓練的系統,將其應用到現實環境中。
「我們展示了機器學習演算法的設計者可以如何幫助其他開發者,在將人工智慧植入到其產品和服務中的時候,他們可以更容易描述不想要的結果或行為,而人工智慧系統將以高概率避免這些狀況。」馬薩諸塞大學阿默斯特分校電腦科學助理教授、該論文的第一作者 Philip Thomas 說。
確保公平與安全
研究人員測試了他們的方法,試圖提高基於考試成績預測大學生 GPA 的演算法的公平性,這種常見的演算法可能產生性別偏見。他們使用實驗資料集為演算法提供了數學指令,以避免讓最終得到的預測性方法系統性地高估或低估某一性別的 GPA。通過這些指令,該演算法找到了一種比現有方法更好的方法來預測學生的 GPA,其系統性性別偏見要少得多。在這方面,先前的方法很困難,要麼是因為它們沒有內建的公平性過濾器,要麼是因為為實現公平性而開發的演算法的範圍太有限。
研究小組還開發了另一種演算法,並使用它來自動平衡胰島素泵的安全性和效能。這種泵必須決定在進餐時間給病人輸送多大劑量的胰島素。理想情況下,泵輸送的胰島素剛好能保持血糖水平穩定。胰島素過少會使血糖升高,導致噁心等短期不適,並增加心血管疾病等長期併發症的風險;過量使用胰島素又會導致血糖暴跌,這是一個潛在的致命後果。
機器學習可以識別個體的血糖水平對不同劑量的胰島素反應的微妙模式,從而更好地提供幫助,但是現有方法並不容易讓醫生明確自動劑量演算法應避免的結果(如低血糖)。Brunskill 和 Thomas 展示瞭如何訓練泵來確定為指定患者量身定製的劑量,避免因劑量過大或劑量不足而引起併發症。儘管該小組尚未準備好在真實的人身上測試該演算法,但它指出了一種人工智慧方法,該方法最終可能會改善糖尿病患者的生活質量。
Brunskill 和 Thomas在他們的《科學》論文中使用術語「Seldonian 演算法」一詞來定義他們的方法,引用於科幻小說作者阿西莫夫發明的角色 Hari Seldon,他曾經宣佈了三條機器人定律,其開頭是「機器人不應傷害人類,也不應因為無作為而傷害人類」。
Thomas 承認這個領域離遵循這三條定律還有很長的路要走,但他說,這種 Seldonian 框架將使機器學習設計人員更容易將避免行為指令構建到各種演算法中,在某種程度上可以使他們能夠評估訓練過的系統在現實世界中正常執行的可能性。
Brunskill 說,這個提議框架建立在許多電腦科學家正在努力的基礎上,在建立強大的演算法和開發方法之間取得平衡以確保其可靠性。
「隨著社會越來越依賴人工智慧,思考如何建立出最能尊重安全、公平等價值的演算法至關重要。」Brunskill 說。
論文標題
Preventing undesirable behavior of intelligent machines論文連結https://science.sciencemag.org/content/366/6468/999