小樣本學習 (Few-shot Learning) 是指像人類一樣能夠透過很少的樣本來學習掌握新任務。這一領域已經成為機器學習社群的熱點,並被認為是推動機器智慧接近人類智慧的關鍵方向之一。哈工大推出了 FewJoint 基準資料集,為 NLP 小樣本評測提供了公共的評價基準。該資料集已在 hyper.ai 上線,hyper.ai 還有更多供中文大模型訓練的 NLP 資料集可以下載哦~一起來看看吧!
1 月 29 日-2 月 2 日,hyper.ai 官網更新速覽:
- 優質公共資料集:10 條
- AI4S 論文案例:3 篇
- 熱門百科詞條:10 條
訪問官網:hyper.ai
公開資料集精選
1. FewJoint 小樣本基準資料集
FewJoint 基準資料集是來自於訊飛 AIUI 開放平臺上真實使用者語料和專家構造的語料(比例約為 3:7),包含 59 個真實領域,是目前包含領域最多的對話資料集之一。
直接使用:
https://hyper.ai/datasets/29239
2. 100 PoisonMpts 中文大模型治理資料集
100 PoisonMpts 是業內首個大語言模型治理開源中文資料集,由數十位知名專家學者組成首批「給 AI 的 100 瓶毒藥」的標註工程師。標註人各提出 100 個誘導偏見、歧視回答的刁鑽問題,並對大模型的回答進行標註,完成與 AI 從「投毒」和「解毒」的攻防。
直接使用:
https://hyper.ai/datasets/29203
3. CLUE 中文語言理解評測基準資料集
CLUE (A Chinese Language Understanding Evaluation Benchmark) 是用於對中文語法理解任務進行訓練、校驗和測試的資料集。
直接使用:
https://hyper.ai/datasets/29094
4. Wikipedia 維基百科資料集
該資料集由 Wikipedia dumps 構建,每種語言有一個子集,每個子集連線一列拆分。每個示例都包含一篇完整的維基百科文章的內容,並清理以刪除標記和不需要的部分(如「參考」,等)。
直接使用:
https://hyper.ai/datasets/28528
5. CCI 中文網際網路語料庫
中文網際網路語料庫(Chinese Corpora Internet,簡稱 CCI)由來自中國大陸網際網路網站的高質量、可信任的來源組成。CCI 經過嚴格的資料清洗和去重,在內容質量方面進行了有針對性的檢測和過濾。
直接使用:
https://hyper.ai/datasets/29186
6. PKU 簡體中文分詞資料集
SIGHAN 2005 資料集國際中文自動分詞評測(簡稱 SIGHAN 評測)整合了多個機構的分詞資料集構成。該資料集由中國微軟研究所、北京大學、香港城市大學、臺灣中央研究院聯合釋出,用以進行中文分詞模型的訓練與評測。其中 PKU 為簡體中文分詞資料集。
直接使用:
https://hyper.ai/datasets/29168
7. Chinese-Poetry 最全中文詩歌古典文集資料庫
該資料集是目前最全的中華古典文集資料庫,包含 5.5 萬首唐詩、26 萬首宋詞、2.1 萬首宋詞等古典文集。詩人包括唐宋兩朝近 1.4 萬古詩人,和兩宋時期 1.5k 古詞人。資料來源於網際網路。
直接使用:
https://hyper.ai/datasets/29257
8. PD&CFT 中文閱讀理解資料集
該資料集是第一個中文閱讀理解資料集,其中包括人民日報和兒童童話(People Daily&Children's Fairy Tale,簡稱 PD&CFT)的文字內容。
直接使用:
https://hyper.ai/datasets/29260
更多本週更新資料集,請訪問:
ScienceAI 論文案例精選
1.帕金森早期診斷準確率提高至 90.2%,深圳先進院聯合中山一院提出 GSP-GCNs 模型
中山大學附屬第一醫院&中科大先進院等研究團隊,提出了一種深度學習模型——圖訊號處理-圖卷積網路 (GSP-GCNs),利用從涉及聲調調節的特定任務中獲得的事件相關腦電圖資料來診斷帕金森病。相關論文已發表於「Nature」期刊。
檢視完整報導:
2. 科技部出手!科研人員的 AIGC 使用手冊來了,學術界開始防範 AI 槍手
2023 年 12 月 21 日,科技部監督司釋出《負責任研究行為規範指引(2023)》,針對社會關注的人工智慧、重大成果釋出等熱點問題,規範了 AI 等技術在科研中的應用。
檢視完整報導:
3. 中科院半導體所論文再登 TNNLS 頂刊,貢獻探索數學表示式的新視角
中國科學院半導體研究所的研究人員將表示式結構的求解視為分類問題,並透過監督學習進行解決,提出一種名為 DeepSymNet 的符號網路來表示符號表示式。與目前流行的幾種基於監督學習的 SR 演算法相比,DeepSymNet 使用標籤 (label) 更短,減少了預測的搜尋空間,同時提升了演算法魯棒性。相關論文已發表於「IEEE」期刊。
檢視完整報導:
熱門百科詞條精選
1. 表徵學習Representation learning
2. 長短期記憶 Long Short-Term Memory
3. 最小二乘法 The least square method
4. 網格計算 Grid Computing
5. 倒數排名融合 Reciprocal Rank Fusion (RRF)
這裡彙編了數百條 AI 相關詞條,讓你在這裡讀懂「人工智慧」:
以上就是本週編輯精選的全部內容,如果你有想要收錄 hyper.ai 官方網站的資源,也歡迎留言或投稿告訴我們!
下週再見!
關於 HyperAI超神經 (hyper.ai)
HyperAI超神經 (hyper.ai) 是國內領先的人工智慧及高效能運算社群,致力於成為國內資料科學領域的基礎設施,為國內開發者提供豐富、優質的公共資源,截至目前已經:
- 為 1200+ 公開資料集提供國內加速下載節點
- 收錄 300+ 經典及流行線上教程
- 解讀 100+ AI4Science 論文案例
- 支援 500+ 相關詞條查詢
- 託管國內首個完整的 Apache TVM 中文文件
訪問官網開啟學習之旅: