最近,Argilla 和 Hugging Face 共同 推出 了 Data is Better Together
計劃,旨在凝聚社群力量協力構建一個對提示進行排名的偏好資料集。僅用幾天,我們就吸引了:
- 350 個社群貢獻者參與資料標註
- 超過 11,000 個提示評分
你可透過 進度皮膚 瞭解最新的統計資料!
基於此,我們釋出了 10k_prompts_ranked
資料集,該資料集共有 1 萬條提示,其中每條提示都附帶使用者的質量評分。我們希望後續能開展更多類似的專案!
本文將討論為什麼我們認為社群合作構建資料集至關重要,並邀請大家作為首批成員加入社群,Argilla 和 Hugging Face 將共同支援社群開發出更好的資料集!
“無資料,不模型”仍是顛撲不破的真理
資料對於訓練出更好的模型仍具有至關重要的作用: 現有的研究 及開源 實驗 不斷地證明了這一點,開源社群的實踐也表明更好的資料才能訓練出更好的模型。
為什麼需要社群合力構建資料集?
“資料對於機器學習至關重要”已獲得廣泛共識,但現實是對很多語言、領域和任務而言,我們仍然缺乏用於訓練、評估以及基準測試的高質量資料集。解決這一問題的路徑之一是借鑑 Hugging Face Hub 的經驗,目前,社群已透過 Hugging Face Hub 共享了數千個模型、資料集及演示應用,開放的 AI 社群協力創造了這一令人驚歎的成果。我們完全可以將這一經驗推廣,促成社群協力構建下一代資料集,從而為構建下一代模型提供獨特而寶貴的資料基礎。
賦能社群協力構建和改進資料集得好處有:
- 無需任何機器學習或程式設計基礎,人人皆能為開源機器學習的發展作出貢獻。
- 可為特定語言建立聊天資料集。
- 可為特定領域開發基準資料集。
- 可建立標註者多樣化的偏好資料集。
- 可為特定任務構建資料集。
- 可利用社群的力量協力構建全新的資料集。
重要的是,我們相信憑藉社群的協力會構建出更好的資料集,同時也能讓那些不會編碼的人也能參與進來為 AI 的發展作貢獻。
讓人人都能參與
之前許多協力構建 AI 資料集的努力面臨的挑戰之一是如何賦能大家以高效完成標註任務。Argilla 作為一個開源工具,可讓大家輕鬆地為 LLM 或小型特化模型建立資料集,而 Hugging Face Spaces 是一個用於構建和託管機器學習演示應用的平臺。最近,Argilla 對 Spaces 上託管的 Argilla 例項增加了對 Hugging Face 賬戶驗證的支援,有了這個,使用者現在僅需幾秒鐘即可開始參與標註任務。
我們在建立 10k_prompts_ranked
資料集時已對這個新的工作流進行了壓力測試,我們已準備好支援社群建立新的協作資料集。
首批加入資料集共建社群!
我們對這個新的、簡單的託管標註工作流的潛力深感興奮。為了支援社群構建更好的資料集,Hugging Face 和 Argilla 邀請感興趣的個人或社群作為首批成員加入我們的資料集構建者社群。
加入這個社群,你將可以:
- 建立支援 Hugging Face 身份驗證的 Argilla Space。 Hugging Face 將為參與者提供免費的硬碟和增強型 CPU 資源。
- Argilla 和 Hugging Face 可提供額外的宣傳渠道以助力專案宣傳。
- 受邀加入相應的社群頻道。
我們的目標是支援社群協力構建更好的資料集。我們對所有想法持開放態度,並願竭盡所能支援社群協力構建更好的資料集。
我們在尋找什麼樣的專案?
我們願意支援各種型別的專案,尤其是現存的開源專案。我們對專注於為目前開源社群中資料不足的語言、領域和任務構建資料集的專案尤其感興趣。當前我們唯一的限制是主要針對文字資料集。如果你對多模態資料集有好想法,我們也很樂意聽取你的意見,但我們可能無法在第一批中提供支援。
你的任務可以是完全開放的,也可以是向特定 Hugging Face Hub 組織的成員開放的。
如果你想成為首批成員,請加入 Hugging Face Discord 中的 #data-is-better-together
頻道,並告訴我們你想構建什麼資料集!
期待與大家攜手共建更好的資料集!
英文原文: https://hf.co/blog/community-datasets
原文作者: Daniel van Strien,Daniel Vila
譯者: Matrix Yao (姚偉峰),英特爾深度學習工程師,工作方向為 transformer-family 模型在各模態資料上的應用及大規模模型的訓練推理。