Google AI資料卡攻略:資料集文件透明化工具包
Google釋出了資料卡,這是一個資料集檔案框架,早在提供高資料集生命週期的透明度。資料卡包包括以下內容:
- 上游資源
- 資料收集和註冊方法
- 培訓與考核方式
- 資料集的預期用途
- 影響模型效能的決策
隨著機器學習 (ML) 研究轉向能夠執行大量下游任務的大規模模型,對資料集的起源、發展、意圖和演變的共同理解對於 ML 模型的負責任和知情開發變得越來越重要。然而,關於資料集的知識,包括使用和實現,往往分佈在團隊、個人甚至時間上。
資料卡方法很吸引人,尤其是隨著機器學習 (ML) 研究轉向能夠執行大量下游任務的大規模模型。對資料集的起源、發展、意圖和演變的共同理解對於負責任和知情的發展變得越來越重要。
資料卡是透明的工件,它提供 ML 資料集的結構化摘要,其中解釋了塑造資料的過程和基本原理,並描述瞭如何使用資料來訓練或評估模型。
在實踐中,有兩個關鍵因素決定了透明度工件的成功,即識別決策者使用的資訊的能力以及獲取該資訊所需的流程和指南的建立。我們開始在我們的論文中探索這個想法,使用三個“腳手架scaffolding”框架,旨在使資料卡適應各種資料集和組織環境。這些框架幫助我們建立邊界基礎設施,這些流程和參與模型補充了在實踐社群之間交流資訊所必需的技術和功能基礎設施。邊界基礎設施使資料集利益相關者能夠找到共同點,用於為資料集的建立、文件和使用的決策提供不同的輸入。
今天,我們介紹了Data Cards Playbook,這是一個自導式工具包,供各種團隊使用他們的 ML 資料集應對透明度挑戰。Playbook 將以人為本的設計方法應用於文件——從規劃透明度策略和定義受眾到編寫以讀者為中心的複雜資料集摘要——以確保文件資料集的可用性和實用性得到很好的理解。我們已經建立了參與式活動來克服建立資料集透明度工作的典型障礙,可以將資料透明度擴充套件到新資料型別的框架,以及研究人員、產品團隊和公司可以用來製作反映其組織原則的資料卡的指南。
詳細點選標題
相關文章
- Google 亮劍:釋出 Deepfake 資料集,對抗 AI 造假GoAI
- 資料集與工具包kitti_nuscen
- Google AI發資料集論文、辦挑戰賽卻拒絕開放資料集?結果被懟了……GoAI
- voc資料集轉換成coco資料集
- 資料顯示設定攻略
- Labview軟體、NI資料採集卡、汽車發動機資料採集學習總結(二)View
- HS系列USB資料採集卡,及高速多通道資料分析軟體詳解
- UCI資料集整理(附論文常用資料集)
- Google開放最大目標檢測資料集,還要為它舉辦AI挑戰賽GoAI
- 如獲取獲取關聯資料的文件跟模型的關聯資料集呢模型
- php資料集PHP
- tinyshakespeare資料集
- SST資料集
- 分散式文件儲存資料庫之MongoDB分片叢集分散式資料庫MongoDB
- Express 文件(資料庫整合)Express資料庫
- ORACLE資料校驗文件Oracle
- 大資料如何採集資料?大資料的資料從何而來?大資料
- Ai影像分割模型PaddleSeg——自定義資料集處理AI模型
- 使用coco資料集建立賦值黏貼篡改資料集賦值
- 文件智慧:通用文件預訓練模型與資料集,推動NLP落地升級模型
- SD卡資料恢復SD卡資料恢復
- CF卡資料恢復資料恢復
- oracle資料庫卡頓Oracle資料庫
- 常見資料集
- 資料集訓練
- 資料集簡介
- 影片資料卡設計方案:120-基於PCIe的影片資料卡
- 關聯式資料庫與文件資料庫對比資料庫
- 資料庫界的Swagger:一鍵生成資料庫文件!資料庫Swagger
- 大資料技術之資料採集篇大資料
- 拆分PPOCRLabel標註的資料集並生成識別資料集
- 高速影片採集卡設計資料儲存:620-基於PCIe的高速影片採集卡
- Python操作MongoDB文件資料庫PythonMongoDB資料庫
- SpringBoot整合Mongodb文件資料庫Spring BootMongoDB資料庫
- UCI資料集詳解及其資料處理(附148個資料集及處理程式碼)
- 工商資訊資料採集思路
- 深度學習常用的資料集,包括各種資料跟影象資料深度學習
- PySpider爬取去哪兒攻略資料專案IDE