近日,上海交通大學生成式人工智慧研究實驗室 (GAIR),開源了專為數學領域量身定製的高質量且多樣化的預訓練資料集 MathPile,及其可商用版本 MathPile-Commercial,現在在 hyper.ai 官網可以下載啦!還有更多如 MathVista、Math23K 等熱門數學資料集等你使用哦~
2 月 19 日-2 月 23 日,hyper.ai 官網更新速覽:
- 優質公共資料集:10 個
- AI4S 論文案例:4 篇
- 熱門百科詞條:10 條
訪問官網:hyper.ai
公開資料集精選
1. MathPile 數學推理預訓練語料庫
上海交通大學生成式人工智慧實驗室推出了 MathPile 資料集。這是一套專門針對數學領域的高質量、多樣化預訓練語料庫,其中包含約 95 億 tokens,旨在提升大模型在數學推理方面的能力。
直接使用:
https://hyper.ai/datasets/29543
2. MathPile-Commercial 數學推理預訓練語料(可商用版)
MathPile-Commercial 是 MathPile 的商業用途版本,是透過剔除 MathPile 中禁止商業用途的檔案獲得的(最新版本,即 v0.2)。具體來說,研究團隊對源資料進行了非商業用途檢測,利用 arXiv 源的後設資料中的許可資訊,並對其他源採用了關鍵字匹配。
直接使用:
https://hyper.ai/datasets/29545
3. AI 生成的影像資料集
該資料集包含由 Copilot 生成的 19 張男孩影像。Copilot 是一個人工智慧伴侶,可以建立富有想象力和創新的內容。這些影像適用於面部和姿勢檢測任務,因為它們的面部表情、姿勢、背景、光照和遮擋各不相同。
直接使用:
https://hyper.ai/datasets/29527
4. AI 生成的多樣化肖像資料集
該資料集包含 140 張由先進 AI 演演算法精心製作的高質量影像,其中有 70 張女性肖像和 70 張男性肖像。該資料集中的每張影像都證明瞭人工智慧在模仿人類外表的複雜性方面具有非凡的能力。
直接使用:
https://hyper.ai/datasets/29529
5. THUCNews 中文文字分類資料集
THUCNews 是根據新浪新聞 RSS 訂閱頻道 2005~2011 年間的歷史資料篩選過濾生成的,包含 74 萬篇新聞檔案 (2.19 GB) ,均為 UTF-8 純文字格式。研究團隊在原始新浪新聞分類體系的基礎上,重新整合劃分出了 14 個候選分類類別:財經、彩票、房產、股票、家居、教育、科技、社會、時尚、時政、體育、星座、遊戲、娛樂。
直接使用:
https://hyper.ai/datasets/29521
6. ShareGPT 90k 中英文雙語人機問答資料集
ShareGPT-Chinese-English-90k 是中英文平行雙語優質人機問答資料集,覆蓋真實複雜場景下的使用者提問資料。該資料集可用於訓練高質量的對話模型。
直接使用:
https://hyper.ai/datasets/29523
7. SMP-2017 中文對話意圖識別資料集
該資料集為 SMP2017 中文人機對話技術評測 (ECDT) 任務一資料集。該評測旨在促進中文人機對話系統相關研究的發展。
直接使用:
https://hyper.ai/datasets/29515
8. 今日頭條文字分類資料集
該資料集為今日頭條中文新聞(短文字)分類資料集。資料來源為今日頭條客戶端。共包含 15 個分類,382,688 條文字,採集時間為 2018 年 05 月。
直接使用:
https://hyper.ai/datasets/29517
更多本週更新資料集,請訪問:
ScienceAI 論文案例精選
1. 協和眼科牽頭 ,5 家眼科中心同發力,用 AI 助力 13 種眼底疾病檢測
眼科疾病的診斷高度依賴於影像識別,眼科專業非常適合深度學習等技術的應用。為進一步挖掘深度學習在眼底疾病診斷中的潛在價值,由北京協和醫院眼科主任陳有信牽頭、全國 5 家眼科中心與北京致遠慧圖科技有限公司、中國人民大學資訊學院李錫榮教授合作,共同開發了深度學習系統。該系統助力初級眼科醫生的診斷一致性提高了約 12%,為 13 種主要眼底疾病的自動檢測提供了一種新的方法。相關論文已發表於「Nature」期刊。
檢視完整報導:
2. 超 5 萬人參與,浙大吳息鳳教授團隊新作:健康與辦公場所綠化水平有關
生態環境對人類健康的影響是潛移默化的。浙江大學公共衛生學院吳息鳳教授課題組透過卷積神經網路模型,基於街景影像的綠色檢視指數對可見綠色暴露進行評估,進而探討了工作場所可視綠化水平與成年人代謝綜合徵之間是否存在有益關聯。課題組透過邏輯迴歸模型對杭州市 5 萬多名成年人的工作環境室外可視綠化水平進行評估,證實了兩者間的有益關聯。相關成果已發表於「Environment International」期刊。
檢視完整報導:
3. 上海交大 AI4S 團隊提出「智慧化科學設施」構想,建立跨學科 AI 科研助手
上海交通大學人工智慧研究院 AI for Science 團隊楊小康教授等人提出了一種智慧化科學設施的建設構想,形成科學領域大模型、生成式模擬與反演、自主智慧無人實驗及大規模可信科研協作等創新功能。相關研究成果已發表於「中國科學院院刊」。
檢視完整報導:
4. 亞馬遜工程師嚴選,超 40 篇 LLM 論文彙總
越來越多的企業、傳統行業開始探索如何應用大語言模型與自身業務相結合,快速膨脹的市場需求也反向推動了相關領域的研究進一步深化、創新,arXiv 等平臺上的論文更新也愈發頻繁。為了幫助大家更快檢索高價值論文,亞馬遜工程師 Eugene Yan 等人建立了一個語言模型論文閱讀清單,持續分享前沿論文,目前已經彙總了 40 餘篇高質量論文。
檢視完整論文彙總:
熱門百科詞條精選
- 召回率 Recall Rate
- 人類反饋強化學習 RLHF
- 通用人工智慧 AGI
- 檢索增強生成 RAG
- 神經輻射場 NeRF
這裡彙編了數百條 AI 相關詞條,讓你在這裡讀懂「人工智慧」:
以上就是本週編輯精選的全部內容,如果你有想要收錄 hyper.ai 官方網站的資源,也歡迎留言或投稿告訴我們哦!
下週再見!
關於 HyperAI超神經 (hyper.ai)
HyperAI超神經 (hyper.ai) 是國內領先的人工智慧及高效能運算社群,致力於成為國內資料科學領域的基礎設施,為國內開發者提供豐富、優質的公共資源,截至目前已經:
- 為 1200+ 公開資料集提供國內加速下載節點
- 收錄 300+ 經典及流行線上教程
- 解讀 100+ AI4Science 論文案例
- 支援 500+ 相關詞條查詢
- 託管國內首個完整的 Apache TVM 中文檔案
訪問官網開啟學習之旅: