Google AI資料卡攻略:資料集文件透明化工具包
Google釋出了資料卡,這是一個資料集檔案框架,早在提供高資料集生命週期的透明度。資料卡包包括以下內容:
- 上游資源
- 資料收集和註冊方法
- 培訓與考核方式
- 資料集的預期用途
- 影響模型效能的決策
隨著機器學習 (ML) 研究轉向能夠執行大量下游任務的大規模模型,對資料集的起源、發展、意圖和演變的共同理解對於 ML 模型的負責任和知情開發變得越來越重要。然而,關於資料集的知識,包括使用和實現,往往分佈在團隊、個人甚至時間上。
資料卡方法很吸引人,尤其是隨著機器學習 (ML) 研究轉向能夠執行大量下游任務的大規模模型。對資料集的起源、發展、意圖和演變的共同理解對於負責任和知情的發展變得越來越重要。
資料卡是透明的工件,它提供 ML 資料集的結構化摘要,其中解釋了塑造資料的過程和基本原理,並描述瞭如何使用資料來訓練或評估模型。
在實踐中,有兩個關鍵因素決定了透明度工件的成功,即識別決策者使用的資訊的能力以及獲取該資訊所需的流程和指南的建立。我們開始在我們的論文中探索這個想法,使用三個“腳手架scaffolding”框架,旨在使資料卡適應各種資料集和組織環境。這些框架幫助我們建立邊界基礎設施,這些流程和參與模型補充了在實踐社群之間交流資訊所必需的技術和功能基礎設施。邊界基礎設施使資料集利益相關者能夠找到共同點,用於為資料集的建立、文件和使用的決策提供不同的輸入。
今天,我們介紹了Data Cards Playbook,這是一個自導式工具包,供各種團隊使用他們的 ML 資料集應對透明度挑戰。Playbook 將以人為本的設計方法應用於文件——從規劃透明度策略和定義受眾到編寫以讀者為中心的複雜資料集摘要——以確保文件資料集的可用性和實用性得到很好的理解。我們已經建立了參與式活動來克服建立資料集透明度工作的典型障礙,可以將資料透明度擴充套件到新資料型別的框架,以及研究人員、產品團隊和公司可以用來製作反映其組織原則的資料卡的指南。
詳細點選標題
相關文章
- 資料集與工具包kitti_nuscen
- Google 亮劍:釋出 Deepfake 資料集,對抗 AI 造假GoAI
- Google AI發資料集論文、辦挑戰賽卻拒絕開放資料集?結果被懟了……GoAI
- 資料移植文件
- Labview軟體、NI資料採集卡、汽車發動機資料採集學習總結(二)View
- HS系列USB資料採集卡,及高速多通道資料分析軟體詳解
- voc資料集轉換成coco資料集
- Google資料:Android系統版本資料GoAndroid
- 資料科學家和大資料技術人員工具包資料科學大資料
- 利用GOOGLE“偷”資料Go
- 資料顯示設定攻略
- H2資料庫攻略資料庫
- 資料探勘資料集下載資源
- docker 文件資料整理Docker
- UCI資料集整理(附論文常用資料集)
- 人工智慧大資料,公開的海量資料集下載,ImageNet資料集下載,資料探勘機器學習資料集下載人工智慧大資料機器學習
- CF卡資料恢復資料恢復
- SD卡資料恢復SD卡資料恢復
- php資料集PHP
- SST資料集
- oracle資料集Oracle
- 如獲取獲取關聯資料的文件跟模型的關聯資料集呢模型
- 分散式文件儲存資料庫之MongoDB分片叢集分散式資料庫MongoDB
- Google開放最大目標檢測資料集,還要為它舉辦AI挑戰賽GoAI
- 大資料如何採集資料?大資料的資料從何而來?大資料
- 大資料_資料採集_網頁01大資料網頁
- Express 文件(資料庫整合)Express資料庫
- ORACLE資料校驗文件Oracle
- 最強資料集集合:50個最佳機器學習公共資料集機器學習
- 使用coco資料集建立賦值黏貼篡改資料集賦值
- 資料泵匯出匯入資料標準文件
- 高速影片採集卡設計資料儲存:620-基於PCIe的高速影片採集卡
- 資料集簡介
- 常見資料集
- [轉]Golang資料集Golang
- 操作大資料集大資料
- 資料庫叢集資料庫
- 資料集訓練