NeurIPS,全稱 Neural Information Processing Systems Conference,是神經資訊處理系統的年度學術會議。該會議始於 1987 年,當時名為 NIPS。隨著人工智慧領域的快速發展,其影響力逐漸擴大,被越來越多的研究者和企業關注並熟知。為了更好地反映會議涵蓋的廣泛領域,NIPS 於 2017 年正式更名為 NeurIPS。
如今,NeurIPS 已經成為全球人工智慧領域最具權威性的學術會議之一,吸引了來自世界各地的學者、企業家和研究人員。
今年是 NeurIPS 舉辦的第 38 屆 (NeurIPS 2024),學術成果盛況依舊。據悉,今年共收到 15,671 篇有效投稿,最終接收了 4,000 篇左右論文。
HyperAI超神經從大會接收的資料集中為大家彙總了 9 個高質量開源資料集,覆蓋雲層去除、化學光譜、歌聲音訊、自動駕駛、昆蟲標本等多個方面,大家可以按需下載~
點選瞭解更多頂會資訊:
https://go.hyper.ai/vWvAW
新增神經星星微信(微訊號:Hyperai01)備註「資料集」加入討論群!
NeurIPS 2024 資料集彙總
1、AllClear 公共雲層去除資料集
釋出機構:康奈爾大學、哥倫比亞大學
預估大小:22.42 GB
下載地址:https://go.hyper.ai/iRqtm
衛星影像中的雲層對於下游應用構成了重大挑戰,當前雲去除研究面臨的一個主要問題是缺乏全面的基準測試和足夠大且多樣化的訓練資料集。而 AllClear 是目前最大的公共雲層去除資料集,包含 23,742 個全球分佈的興趣區域 (ROIs),覆蓋了多樣的土地利用模式,總共包含 400 萬張影像。
2、Muharaf 手寫阿拉伯文資料集
釋出機構:北卡羅來納州立大學、卡斯利克聖靈大學、黎巴嫩歷史協會
預估大小:9.83 GB
下載地址:https://go.hyper.ai/yztH6
Muharaf 資料集是一個專注於手寫阿拉伯文識別的機器學習資料集,包含了超過 1.6k 張歷史手寫頁面影像,這些影像由檔案阿拉伯語專家轉錄。每張文件影像都伴隨著其文字行的空間多邊形座標以及基本頁面元素的資訊,旨在推進手寫文字識別 (HTR) 領域的技術進步。
3、化學多模光譜資料集
釋出機構:IBM Research 、蘇黎世大學、 EPFL 、NCCR Catalysis
預估大小:9.7 GB
下載地址:https://go.hyper.ai/ZdXk8
該資料集包含了從專利資料中的化學反應中提取的 79 萬種分子的模擬 1H-NMR 、13C-NMR、HSQC-NMR 、紅外和質譜(正負離子模式)光譜資料。這個資料集的核心價值在於其能夠整合多種光譜模態的資訊,模擬人類專家分析分子結構的方法,從而有望自動化結構解析,簡化從合成到結構確定的分子發現流程。
4、GTSinger 歌聲音訊資料集
釋出機構:浙江大學
預估大小:28.94 GB
下載地址:https://go.hyper.ai/7jdi2
該資料集包含了 80.59 小時的專業錄音棚錄製的歌聲,這些歌聲由 20 位專業歌手演唱,覆蓋了 9 種不同的語言,包括漢語、英語、日語、韓語等,為研究者提供了一個音色和風格極為豐富的資源庫。
5、DrivingDojo 自動駕駛資料集
釋出機構:中國科學院、美團、中國科學院香港創新研究院人工智慧與機器人中心
下載地址:https://go.hyper.ai/W3eDT
該資料集包含約 18k 個影片片段,涵蓋北京、深圳、徐州等城市,並在不同的天氣條件和日光條件下錄製。它不僅包括了加速、緊急剎車、停車啟動等縱向操作,還包括了掉頭、超車和變道等橫向操作。此外,資料集特別設計了包含大量多主體互動軌跡的影片,旨在提升世界模型在複雜駕駛環境中的預測和控制能力。
6、多模態昆蟲生物多樣性資料集
釋出機構:生物多樣性基因組學中心、圭爾夫大學、滑鐵盧大學等
預估大小:37.71 GB
下載地址:https://go.hyper.ai/Ljjwp
BIOSCAN-5M 資料集包含了超過 500 萬昆蟲標本的詳細資訊,顯著擴充套件了現有的基於影像的生物資料集,不僅包括分類標籤、原始核苷酸條形碼序列、分配的條形碼索引號和地理資訊,還涵蓋了標本大小等多模態資訊,旨在理解和監測全球昆蟲生物多樣性。
7、OpenSatMap 高解析度衛星資料集
釋出機構:中國科學院、中國科學院香港資訊系統研究所人工智慧與機器人研究中心、騰訊地圖和北京郵電大學
預估大小:57.7 GB
下載地址:https://go.hyper.ai/g54aa
該資料集是一個高解析度衛星資料集,專為大規模地圖構建而設計。其特點是細粒度的例項級註釋和高解析度影像,包含了 3,787 張高解析度衛星影像,其中不僅包括中國多個城市的影像,還涵蓋全球 50 多個城市和 18 個國家的影像。
8、自然物種聲音資料集
釋出機構:馬薩諸塞大學阿默斯特分校、iNaturalist
預估大小:131.26 GB
下載地址:https://go.hyper.ai/lyTcc
該資料集收集了 230,000 個音訊檔案,捕捉了來自超過 5,500 個物種的聲音,這些聲音由全球超過 27,000 名記錄者貢獻。這個資料集包含了鳥類、哺乳動物、昆蟲、爬行動物和兩棲動物的聲音,音訊和物種標籤來源於提交給 iNaturalist 的觀察記錄。
9、MINT-1T 文字影像對多模態資料集
釋出機構:華盛頓大學、史丹佛大學、Salesforce Research 等
下載地址:https://go.hyper.ai/kROfu
該資料集包含 1 萬億個文字標記和 34 億張影像,其規模是之前最大開源資料集的 10 倍。它不僅包括 HTML 文件,還涵蓋 PDF 文件和 ArXiv 論文,其多樣性顯著提升了科學文件的覆蓋率。
10、AudioSetCaps 音訊字幕資料集
釋出機構:西北工業大學、西安聯豐聲學技術有限公司、南洋理工大學、中國科學院聲學研究所等
下載地址:https://go.hyper.ai/rTKdU
AudioSetCaps 是一個音訊-字幕資料集,資料來源於 AudioSet 、YouTube-8M 和 VGGSound,包含 6,117,099 個 10 秒的音訊檔案。每個音訊檔案都附有一個描述性標題,還附有 3 個 Q&A 對作為生成最終標題的後設資料(共 18,414,789 對 Q&A 資料)。
以上就是 HyperAI超神經為大家彙總的 NeurIPS 2024 資料集,如果你有想要收錄 hyper.ai 官方網站的資源,也歡迎留言或投稿告訴我們哦!
關於 HyperAI超神經 (hyper.ai)
HyperAI超神經 (hyper.ai) 是國內領先的人工智慧及高效能運算社群,致力於成為國內資料科學領域的基礎設施,為國內開發者提供豐富、優質的公共資源,截至目前已經:
- 為 1300+ 公開資料集提供國內加速下載節點
- 收錄 400+ 經典及流行線上教程
- 解讀 200+ AI4Science 論文案例
- 支援 500+ 相關詞條查詢
- 託管國內首個完整的 Apache TVM 中文文件
訪問官網開啟學習之旅:
https://hyper.ai