資料好合: Argilla 和 Hugging Face Spaces 攜手賦能社群合力構建更好的資料集

HuggingFace發表於2024-03-20

原文網址 : https://www.cnblogs.com/huggingface/p/18084578

Hugging Face

最近，Argilla 和 Hugging Face 共同推出了 Data is Better Together 計劃，旨在凝聚社群力量協力構建一個對提示進行排名的偏好資料集。僅用幾天，我們就吸引了:

350 個社群貢獻者參與資料標註
超過 11,000 個提示評分

你可透過進度皮膚瞭解最新的統計資料！

基於此，我們釋出了 10k_prompts_ranked 資料集，該資料集共有 1 萬條提示，其中每條提示都附帶使用者的質量評分。我們希望後續能開展更多類似的專案！

本文將討論為什麼我們認為社群合作構建資料集至關重要，並邀請大家作為首批成員加入社群，Argilla 和 Hugging Face 將共同支援社群開發出更好的資料集！

“無資料，不模型”仍是顛撲不破的真理

資料對於訓練出更好的模型仍具有至關重要的作用: 現有的研究及開源實驗不斷地證明了這一點，開源社群的實踐也表明更好的資料才能訓練出更好的模型。

常見答案

為什麼需要社群合力構建資料集？

“資料對於機器學習至關重要”已獲得廣泛共識，但現實是對很多語言、領域和任務而言，我們仍然缺乏用於訓練、評估以及基準測試的高質量資料集。解決這一問題的路徑之一是借鑑 Hugging Face Hub 的經驗，目前，社群已透過 Hugging Face Hub 共享了數千個模型、資料集及演示應用，開放的 AI 社群協力創造了這一令人驚歎的成果。我們完全可以將這一經驗推廣，促成社群協力構建下一代資料集，從而為構建下一代模型提供獨特而寶貴的資料基礎。

賦能社群協力構建和改進資料集得好處有:

無需任何機器學習或程式設計基礎，人人皆能為開源機器學習的發展作出貢獻。
可為特定語言建立聊天資料集。
可為特定領域開發基準資料集。
可建立標註者多樣化的偏好資料集。
可為特定任務構建資料集。
可利用社群的力量協力構建全新的資料集。

重要的是，我們相信憑藉社群的協力會構建出更好的資料集，同時也能讓那些不會編碼的人也能參與進來為 AI 的發展作貢獻。

讓人人都能參與

之前許多協力構建 AI 資料集的努力面臨的挑戰之一是如何賦能大家以高效完成標註任務。Argilla 作為一個開源工具，可讓大家輕鬆地為 LLM 或小型特化模型建立資料集，而 Hugging Face Spaces 是一個用於構建和託管機器學習演示應用的平臺。最近，Argilla 對 Spaces 上託管的 Argilla 例項增加了對 Hugging Face 賬戶驗證的支援，有了這個，使用者現在僅需幾秒鐘即可開始參與標註任務。

我們在建立 10k_prompts_ranked 資料集時已對這個新的工作流進行了壓力測試，我們已準備好支援社群建立新的協作資料集。

首批加入資料集共建社群！

我們對這個新的、簡單的託管標註工作流的潛力深感興奮。為了支援社群構建更好的資料集，Hugging Face 和 Argilla 邀請感興趣的個人或社群作為首批成員加入我們的資料集構建者社群。

加入這個社群，你將可以:

建立支援 Hugging Face 身份驗證的 Argilla Space。 Hugging Face 將為參與者提供免費的硬碟和增強型 CPU 資源。
Argilla 和 Hugging Face 可提供額外的宣傳渠道以助力專案宣傳。
受邀加入相應的社群頻道。

我們的目標是支援社群協力構建更好的資料集。我們對所有想法持開放態度，並願竭盡所能支援社群協力構建更好的資料集。

我們在尋找什麼樣的專案？

我們願意支援各種型別的專案，尤其是現存的開源專案。我們對專注於為目前開源社群中資料不足的語言、領域和任務構建資料集的專案尤其感興趣。當前我們唯一的限制是主要針對文字資料集。如果你對多模態資料集有好想法，我們也很樂意聽取你的意見，但我們可能無法在第一批中提供支援。

你的任務可以是完全開放的，也可以是向特定 Hugging Face Hub 組織的成員開放的。

如果你想成為首批成員，請加入 Hugging Face Discord 中的 #data-is-better-together 頻道，並告訴我們你想構建什麼資料集！

期待與大家攜手共建更好的資料集！

英文原文: https://hf.co/blog/community-datasets
原文作者: Daniel van Strien，Daniel Vila
譯者: Matrix Yao (姚偉峰)，英特爾深度學習工程師，工作方向為 transformer-family 模型在各模態資料上的應用及大規模模型的訓練推理。

arXiv和Hugging Face夢幻聯動，一個按鈕直達論文、模型、資料集
2024-10-25
Hugging Face模型
Ryght 在 Hugging Face 專家助力下賦能醫療保健和生命科學之旅
2024-05-07
Hugging Face
快速構建深度學習影像資料集，微軟Bing和Google哪個更好用？
2018-04-18
深度學習微軟Go
萬國資料攜手聯想凌拓合力實現資料雲上雲下靈活排程
2021-06-15
杉巖資料加入龍蜥社群，攜手打造堅實資料儲存底座
2023-05-12
濤思資料加入龍蜥社群，攜手共建時序資料庫生態
2022-08-12
資料庫
亞馬遜雲科技攜手Hugging Face 讓生成式AI觸手可及
2023-02-24
亞馬遜Hugging FaceAI
MQTT 賦能工業 PLC 資料採集與應用
2021-08-27
MQQT
賦能智慧教育，提供資料採集標註服務
2023-01-17
使用coco資料集建立賦值黏貼篡改資料集
2021-01-01
賦值
大資料時代，Smartbi賦能智慧校園建設
2022-05-12
大資料
智慧公安科技賦能，大資料建設新改革
2022-10-29
大資料
JS混淆程式碼資料集構建方法
2024-04-17
JS
賦能智慧醫療，提供資料採集標註服務
2023-01-17
人臉識別資料集 - BioID Face Database - FaceDB
2020-03-18
Database
Transformers - Hugging Face Library
2024-03-15
ORMHugging Face
【虹科乾貨】Lambda資料架構和Kappa資料架構——構建現代資料架構
2023-11-10
架構APP
杉巖資料與阿里雲達成戰略合作，攜手釋放資料潛能
2021-10-21
阿里
博睿資料攜手F5共同構建金融科技從程式碼到使用者的全資料鏈DNA
2022-04-22
人臉識別資料集 - PubFig: Public Figures Face Database
2020-03-18
Database
內建資料結構集合和字典
2020-10-01
資料結構
資料二十條新政釋出促進資料賦能建築企業數字化轉型
2022-12-22
讀資料工程之道：設計和構建健壯的資料系統07資料架構的原則
2024-10-13
架構
Hugging Face NLP課程學習記錄 - 2. 使用 Hugging Face Transformers
2024-09-19
Hugging FaceORM
GBASE攜手國產開源根社群探索資料庫未來發展
2023-03-29
資料庫
如何構建自定義人臉識別資料集
2018-06-26
Redis叢集模式和常用資料結構
2024-03-20
Redis模式資料結構
讀資料工程之道：設計和構建健壯的資料系統26資料建模
2024-11-03
德邦快遞攜手火山引擎，構建“資料飛輪”實現精準營銷
2024-05-22
建設資料資產一體化管控體系，某大型醫藥集團實現資料長效賦能業務發展 | 案例研究
2023-04-13
雙向賦能：AI與資料庫的修行之道
2024-06-28
AI資料庫
資料賦能的未來，是嵌入式BI
2022-04-15
讀資料工程之道：設計和構建健壯的資料系統02資料工程師
2024-10-08
工程師
讀資料工程之道：設計和構建健壯的資料系統01資料工程概述
2024-10-07
讀資料工程之道：設計和構建健壯的資料系統21資料獲取
2024-10-27
mmsegmentation中構造自己的資料集和資料載入部分，跑現有demo
2022-05-05
Segmentation
讀資料工程之道：設計和構建健壯的資料系統24獲取資料的方式
2024-10-30
學好資料結構的秘訣
2023-05-11
資料結構