Google AI資料卡攻略:資料集文件透明化工具包

banq發表於2022-11-21

Google釋出了資料卡,這是一個資料集檔案框架,早在提供高資料集生命週期的透明度。資料卡包包括以下內容:
  1. 上游資源
  2. 資料收集和註冊方法
  3. 培訓與考核方式
  4. 資料集的預期用途
  5. 影響模型效能的決策


隨著機器學習 (ML) 研究轉向能夠執行大量下游任務的大規模模型,對資料集的起源、發展、意圖和演變的共同理解對於 ML 模型的負責任和知情開發變得越來越重要。然而,關於資料集的知識,包括使用和實現,往往分佈在團隊、個人甚至時間上。

資料卡方法很吸引人,尤其是隨著機器學習 (ML) 研究轉向能夠執行大量下游任務的大規模模型。對資料集的起源、發展、意圖和演變的共同理解對於負責任和知情的發展變得越來越重要。

資料卡是透明的工件,它提供 ML 資料集的結構化摘要,其中解釋了塑造資料的過程和基本原理,並描述瞭如何使用資料來訓練或評估模型。

在實踐中,有兩個關鍵因素決定了透明度工件的成功,即識別決策者使用的資訊的能力以及獲取該資訊所需的流程和指南的建立。我們開始在我們的論文中探索這個想法,使用三個“腳手架scaffolding”框架,旨在使資料卡適應各種資料集和組織環境。這些框架幫助我們建立邊界基礎設施,這些流程和參與模型補充了在實踐社群之間交流資訊所必需的技術和功能基礎設施。邊界基礎設施使資料集利益相關者能夠找到共同點,用於為資料集的建立、文件和使用的決策提供不同的輸入。

今天,我們介紹了Data Cards Playbook,這是一個自導式工具包,供各種團隊使用他們的 ML 資料集應對透明度挑戰。Playbook 將以人為本的設計方法應用於文件——從規劃透明度策略和定義受眾到編寫以讀者為中心的複雜資料集摘要——以確保文件資料集的可用性和實用性得到很好的理解。我們已經建立了參與式活動來克服建立資料集透明度工作的典型障礙,可以將資料透明度擴充套件到新資料型別的框架,以及研究人員、產品團隊和公司可以用來製作反映其組織原則的資料卡的指南。

詳細點選標題
 

相關文章