微軟內部研究資料集正式對外開放，覆蓋NLP、CV等9個領域

AI前線發表於2018-06-25

原文網址 : https://juejin.im/post/5b30672651882574c105b8d5

策劃編輯 | Natalie

作者 | Vani Mandava

譯者 | 核子可樂

編輯 | Debra

AI 前線導讀：近日，微軟研究院開源了新的資料專案，致力於促進全球研究界的廣泛合作。有專家對此次開放資料專案評價道“這將成為大資料社群的遊戲規則改變者。微軟研究開放資料這樣的專案能夠減少資料共享的障礙，並通過雲端計算的力量鼓勵可重複性。”微軟在官方部落格中寫道：“微軟研究外聯小組一直在與外部研究團隊開展廣泛合作，並在過去幾年當中積極推動雲研究基礎設施的採用工作。在這一過程中，我們體驗到 Jim Gray 提出的資料密集型科學第四種發展模式的普遍性——目前，幾乎所有研究專案都包含資料元素。這一趨勢同時表明，除了電腦科學領域，其它跨學科與區域科學領域同樣對經過精心規劃以及有意義的資料集抱有旺盛需求。”這也是微軟開放此資料專案的初衷。

更多幹貨內容請關注微信公眾號“AI 前線”，（ID：ai-front）

今天，我們很高興向大家介紹微軟研究開放資料專案——這套新的雲資料儲存庫致力於促進全球研究界的廣泛合作。微軟研究開放資料將提供一套便捷的資料集雲託管平臺，其同時代表著微軟公司多年以來在一系列專案當中所使用的資料管理與研究成果。

為何要開放？

我們的目標是為微軟研究人員及各合作方提供一套簡單的平臺，用以共享資料集以及相關研究技術與工具。微軟研究開放資料專案旨在簡化對這些資料集的訪問流程，促進各使用雲資源的研究人員之間的協作，同時儘可能實現研究的可重複性。我們將繼續塑造並發展這套儲存庫，並根據社群的反饋意見不斷新增新的功能。

我們意識到，研究人員目前正在使用數十套資料儲存庫，並迫切希望其容量能夠與現有工作的需求相契合。

圖1 微軟研究開放資料專案中的資料集

“這將成為大資料社群的遊戲規則改變者。微軟研究開放資料這樣的專案能夠減少資料共享的障礙，並通過雲端計算的力量鼓勵可重複性。”
-Sam Madden，麻省理工學院教授

隨著資料總量以指數速度增長，人們普遍認為到 2025 年全球資料規模將超過 150 ZB。很明顯，面對如此龐大的資料體量，我們應優先將處理資源引入資料，而非通過網際網路頻寬遷移海量資料。我們相信，提供這樣一套將處理與資料加以結合的方案能夠帶來巨大的現實意義。

特點：分類多、覆蓋範圍廣

微軟研究開放資料中的資料集按照其主要研究領域進行分類，具體如圖2所示。你可以在資料集當中找到研究專案或者出版物的連結。你可以瀏覽可用資料集並進行下載，也可以通過自動化工作流程利用 Auzre 訂閱實現直接複製。該儲存庫儘可能符合資料共享領域的最高執行標準，旨在確保資料集的可發現性、可訪問性、可互操作性以及可複用性 ; 且整套素材庫不包含任何個人身份資訊。我們將從使用者當中獲取反饋，從而推動該站點的進一步發展。

圖2 資料集分類

精選資料集先睹為快

微軟開放的資料集中包含很多有用的資料集，以下介紹若干精選資料集：

微軟機器閱讀理解（MS MARCO）

微軟機器閱讀理解（MS MARCO）是一個全新的閱讀理解和問題解答大型資料集。在 MS MARCO 中，所有問題都是從真正的匿名使用者查詢中抽樣的。從上下文語境中得到的回答是使用最高階版本的 Bing 搜尋引擎從真實的 Web 文件中提取的。如果使用者能夠總結答案，則查詢的答案由他們人工生成。

檔案大小：469.03 MB

檔案型別：json

許可證：微軟研究資料許可協議

上次修改時間：6/5/18

類別：社會科學、社交媒體等

詳細資訊：

https://msropendata.com/datasets/2bda14a7-ee25-4092-8f2f-9272d48ae903

SigmaDolphin

用於建立一個自動解決用自然語言編寫的數學單詞問題的計算機系統。SigmaDolphin 是 2013 年初在微軟亞洲研究院啟動的一個專案，其主要目標是建立一個具有自然語言理解和推理能力的計算機智慧系統。我們專注於研發自主解決問題的應用，即自動解決用自然語言編寫的問題（特別是數學問題）。

檔案大小：11.54 MB

檔案型別：json，pdf，pkl，py，txt

許可證：微軟研究資料許可協議

上次修改時間：6/21/18

類別：數學、統計學、邏輯學等

詳細資訊：

https://msropendata.com/datasets/f0e63bb3-717a-4a53-aa79-da339b0d7992

微軟研究社交媒體對話語料庫

此資料集是從 Twitter 日誌中提取的代表 4232 個三步會話片段的 12,696 個 Tweet ID 集合。資料集中的每一行表示一個單獨的上下文-訊息-響應三元關係，眾包註釋者為上下文響應質量的評分平均為 4 或更高。資料已被隨機分為調優（開發）和測試集，分別包含 2118 和 2114 個三元關係。但這個在自然語言處理社群的資料集僅供學術研究之用。為了訪問底層推文和相關後設資料，你需要呼叫 Twitter API。

如果你在研究中使用類似材料，可以引用以下文章：Alessandro Sordoni，Michel Galley，Michael Auli，Chris Brockett，Jiufeng Feng，Meg Mitchell，Jian-Yun Nie, Jianfeng Gao 和 Bill Dolan，A Neural Network Approach to Context-Sensitive Generation of Conversational Responses, Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2015)。

與此和相關專案的更多資訊可以在 http： //research.microsoft.com/en-us/projects/convo/ 上找到。

檔案大小：245.46 KB

檔案型別：txt

許可證：微軟研究資料

許可協議：微軟研究資料許可協議

上次修改時間：6/21/18

類別：社會科學，社交媒體等

詳細資訊：

https://msropendata.com/datasets/2bda14a7-ee25-4092-8f2f-9272d48ae903

NewsQA

每秒鐘都會產生大量的書面文字，我們如何確保我們有最新的相關資訊供使用呢？微軟研究蒙特利爾正在通過構建能夠實時讀取和理解大量複雜文字的 AI 系統來解決這個問題。NewsQA 資料集旨在幫助研究團體構建能夠回答需要人類理解和推理技能的問題的演算法。

檔案大小：18.23 MB

檔案型別：csv，md，pdf

許可證：微軟研究資料

許可協議：微軟研究資料許可協議

上次修改時間：6/21/18

類別：電腦科學

詳細資訊：

https://msropendata.com/datasets/939b1042-6402-4697-9c15-7a28de7e1321

在 Bing 查詢中訓練雙字嵌入

這些資料僅可用於研究目的。DESM Word Embeddings 資料集包含一些可能被認為具有冒犯性、不雅或其他令人反感的詞語。 Microsoft 尚未審查或修改資料集的內容。 Microsoft 此資料集僅為了便利的目的，對通過該資料集產生的任何不適內容概不負責。使用資料集需要你自擔風險，保持判斷力。有問題請聯絡論文作者。

檔案大小：10.38 GB

檔案型別：txt

許可證：微軟研究資料

許可協議：微軟研究資料許可協議

上次修改時間：6/21/18

類別：電腦科學

詳細資訊：

https://msropendata.com/datasets/30a504b0-cff2-4d4a-864f-3bc9a66f9d7e

其他的精選資料集還包括 Frames、Filling the Blanks for Mad Libs 等，這裡就不一一詳細介紹了。

如何獲取微軟開放資料集

微軟此次開放的資料專案其中很多都是微軟內部很先進技術會用到的資料集，資料分類多、覆蓋範圍廣、資源珍貴，且用且珍惜，傳送門先奉上：

https://msropendata.com/

除了提供資料資產下載選項之外，使用者還可以將資料集直接複製至基於 Azure 的 Data Science 虛擬機器當中，具體如圖 3 所示。

圖3 將資料由 microsoftopendata.com 複製至基於 Azure 的 Linux 虛擬機器

Data Science 虛擬機器預先安裝有各類廣受研究人員與從業者喜愛的開發工具，如圖 4 所示。

圖4 Linux Data Science 虛擬機器

“我經常收到進行研究資料共享的請求，而我過去已經進行的單獨分享也獲得了不錯的效果。利用 Azure，我們可以在統一平臺上對資料集進行協調與編目，從而幫助內部與外部研究人員更輕鬆地實現訪問、鼓勵彼此協作。這同時也將為微軟研究院提供便捷的雲共享資料訪問能力。”
-John Krumm，微軟研究院 AI 首席研究員

微軟研究開放資料專案是微軟研究院外聯資料科學計劃的成果之一。在這裡，我們要感謝微軟公司內各團隊、微軟研究人員、行業合作伙伴以及學術顧問之間的能力配合。沒有他們的貢獻，這一專案將不可能順利完成。

原文連結：

https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/

微軟亞洲研究院NLP領域最新研究一覽
2021-11-20
微軟
對比學習（Contrastive Learning）在CV與NLP領域中的研究進展
2021-09-07
AST
內地再向香港開放11個服務領域（轉）
2019-05-12
微軟亞洲研究院NLP與語音領域2019-2020推薦論文列表
2020-01-31
微軟
新的《微軟飛行模擬》地圖資料或達2PB，覆蓋整個地球
2019-10-21
微軟地圖
在這個連開源標註資料集都沒有的領域，AI該如何落地？| 人物對話
2018-04-01
AI
覆蓋8大領域，雲投集團財務數智化管理平臺全面上線！
2023-09-20
人工智慧領域經典資料集
2018-06-12
人工智慧
最全資料指標體系集合！覆蓋9個行業4個業務場景，全是乾貨
2021-08-18
指標行業
微軟內部封殺 Slack
2019-07-15
微軟
為什麼說 NLP 將是未來資料領域的珠峰？
2018-07-28
Maven配置覆蓋內嵌tomcat虛擬對映路徑
2019-01-17
MavenTomcat
在這個連開源標註資料集都沒有的領域，AI該如何落地？
2018-03-29
AI
暴力法求解“微信群覆蓋”？
2018-11-14
含284個資料集，覆蓋18項臨床任務，上海AI Lab等釋出多模態醫療基準GMAI-MMBench
2024-11-19
AI
document.write() 清空覆蓋內容
2018-12-05
ACL 2022 | NLP領域最新熱門研究，你一定不能錯過！
2022-06-09
百家爭鳴|國內外NLP領域學術界和工業界的牛人和團隊
2018-11-06
覆蓋四種場景、包含正負向反饋，騰訊、西湖大學等釋出推薦系統公開資料集Tenrec
2022-12-02
360眾測平臺全新來襲，面向安全研究員正式開放內測
2020-03-31
阿里靈傑：整合阿里整體大資料＋AI能力對外開放
2021-10-20
阿里大資料AI
Linux 檢視對外開放埠
2018-12-22
Linux
真為國產辦公軟體長臉！WPS這個領域吊打微軟
2021-11-02
微軟
大資料怎麼學？對大資料開發領域及崗位的詳細解讀，完整理解大資料開發領域技術體系
2024-04-30
大資料
最大匹配、最小頂點覆蓋、最大獨立集、最小路徑覆蓋（轉）（再轉）
2024-08-08
CNN之於CV和NLP
2018-11-27
CNN
如何實現室內無線覆蓋
2019-07-18
1億行為資料，知乎、清華開放國內最大個性化推薦實際互動資料集
2021-07-04
教你兩種資料庫覆蓋式資料匯入方法
2021-09-11
資料庫
達觀資料入選IDC首份”AI+媒體“行業研究報告，被選為NLP領域代表廠商
2021-12-06
AI行業
微信小遊戲開放域之helloworld
2018-12-21
遊戲
填補國內資料共享叢集領域的空白有多難？達夢DSC做到了！
2021-10-08
DSTC10開放領域對話評估比賽冠軍方法總結
2022-01-15
正式啟用！微軟智慧雲Azure在華新增資料中心區域
2022-03-19
微軟
研究表明開源領域已不再增長
2020-08-23
室內無線覆蓋如何做到最好？
2019-10-11
ICLR2021對比學習（Contrastive Learning）NLP領域論文進展梳理
2022-02-02
ICLRAST
絕非對抗！AI短期內無法取代人類的五個領域
2020-10-10
AI

微軟內部研究資料集正式對外開放，覆蓋NLP、CV等9個領域

相關文章