在最近的一次談話中,Facebook人工智慧研究科學家Moustapha Cissé告訴我,“你吃什麼你就是什麼,而我們正在給演算法模型喂垃圾食品。”

(圖片來自於網路)

如果你不知道食物中有什麼,你就很難合理飲食。同理,如果你不理解訓練資料的原理,就不能訓練出偏差更小的模型。

這就是為什麼最近的論文“給資料集建立資料手冊” https://arxiv.org/abs/1803.09010 如此有趣的原因。在這篇論文中,來自微軟研究的Timnit Gebru及其同事與來自其他學術研究機構的合著者們為資料集提出了相當於食物營養標籤的標準。

很多機器學習和深度學習模型,大多傾向於使用像ImageNet或COCO 這樣的公共資料集,或是私人創造的資料集,這些資料集能夠將訓練資料集的內容、偏差和其他相關素材傳輸給有興趣的使用者是非常重要的。

“資料手冊”這篇論文探討了使用標準化資料手冊,將這些資訊傳遞給資料集、商業化API和預構建模型使用者的方案。除了能協助使用者交流資料偏差外,作者還指出這種資料手冊能夠提升資訊的透明度,併為資料的可靠性背書。

除了潛在的倫理問題外,當使用第三方資料進行訓練的模型不能充分歸納到不同語境時,隱藏的資料偏差會造成部署系統的不可預測性,甚至失敗。當然,最好的選擇是收集第一方資料,並使用由該領域裡具有專業知識和深刻見解的專家們構建和訓練的模型。

廣泛可用的公共資料集、更易上手的機器學習工具,能便捷訪問的人工智慧API和預購建模型促進AI民主化,使得越來越多的開發人員將AI技術運用到他們的應用中。作者建議,為AI資料集和工具建立資料手冊可以為那些沒有專長領域的工程師提供基礎的資訊,有助於減少由資料集誤用引發的問題。

資訊保安公司Terbium實驗室的CTO Clare Gollnick,在與我們討論科學和人工智慧中的再現性危機時,提出了類似觀點。她擔心開發人員往往把重心放在用更深層、更復雜的模型解決問題,而當這些模型被應用到生產中時,通常會遇到泛化的問題。相反地,她發現,當研究人員利用該領域裡現有的專業知識和深刻見解去解決AI問題時,成果將更為穩健。

Gebru和合作者在論文中指出,AI尚未經受以往伴隨著新興行業(如汽車、醫藥和電氣行業)發展而逐步完善的安全法規的檢驗。文中提到:

當汽車首次在美國出現時,沒有車速限制、停車標誌、交通訊號燈、駕駛員教育,與安全帶或醉酒駕駛有關的規定。因此,1900年代早期,碰撞、超速和魯莽駕駛造成了許多人員傷亡。

幾十年來,汽車及其它行業都在不斷地修改完善旨在保護公共利益的法規,同時其自身的技術革新也沒有停滯。論文認為,是時候開始考慮為AI制定相關的法律法規了,特別是當我們開始將其用於健康和公共部門等高風險實踐中時。歐洲即將出臺的通用資料保護條例(GDPR)就將處理這些問題。

論文提出的“資料手冊”來源於電氣元件相關的概念。每一個售出的電子元件都附帶相應的“資料手冊”,上面列出了元件的功能、特性、執行電壓、物理細節等。當使用者需要在購買前瞭解某個零件的效能,以及誤操作情況下可能出現的反應時,這些資料手冊就能提供使用者所需的支援。

(示例圖片來自於網路)

作者建議,資料集或API的提供方應該附帶一份“資料手冊”來解決一系列標準化問題,這份“資料手冊”應該包含以下主題:

•    資料集建立的動機

•    資料集的組成

•    資料收集過程

•    資料預處理

•    資料的分佈

•    資料的維護

•    法律和倫理方面的考慮

對於上面所列主題的具體詳解,可以參照該論文;它還包含了一系列補充細節,併為Wild資料集中的UMAS Labeled Faces 提供示例“資料手冊”。這是一個完整全面、易於使用,並將具有影響力的模型。

這樣的“資料手冊”允許使用者瞭解他們使用的資料的優點和侷限性,並防止出現諸如偏差和過度擬合之類的問題。同時,“資料手冊”還能全方位的促使資料集的創作者和使用者對資料來源進行不同角度的思考,並理解資料其實並非‘事實上’的存在,而是需要謹慎對待和維護的具有生命力的資源。

雖然我不是個電氣工程師,但是我非常欣賞這個有趣的想法。

【友盟+】翻譯