更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)
今天,我們很高興向大家介紹微軟研究開放資料專案——這套新的雲資料儲存庫致力於促進全球研究界的廣泛合作。微軟研究開放資料將提供一套便捷的資料集雲託管平臺,其同時代表著微軟公司多年以來在一系列專案當中所使用的資料管理與研究成果。
我們的目標是為微軟研究人員及各合作方提供一套簡單的平臺,用以共享資料集以及相關研究技術與工具。微軟研究開放資料專案旨在簡化對這些資料集的訪問流程,促進各使用雲資源的研究人員之間的協作,同時儘可能實現研究的可重複性。我們將繼續塑造並發展這套儲存庫,並根據社群的反饋意見不斷新增新的功能。
我們意識到,研究人員目前正在使用數十套資料儲存庫,並迫切希望其容量能夠與現有工作的需求相契合。
圖1 微軟研究開放資料專案中的資料集
“這將成為大資料社群的遊戲規則改變者。微軟研究開放資料這樣的專案能夠減少資料共享的障礙,並通過雲端計算的力量鼓勵可重複性。”
-Sam Madden,麻省理工學院教授
隨著資料總量以指數速度增長,人們普遍認為到 2025 年全球資料規模將超過 150 ZB。很明顯,面對如此龐大的資料體量,我們應優先將處理資源引入資料,而非通過網際網路頻寬遷移海量資料。我們相信,提供這樣一套將處理與資料加以結合的方案能夠帶來巨大的現實意義。
微軟研究開放資料中的資料集按照其主要研究領域進行分類,具體如圖2所示。你可以在資料集當中找到研究專案或者出版物的連結。你可以瀏覽可用資料集並進行下載,也可以通過自動化工作流程利用 Auzre 訂閱實現直接複製。該儲存庫儘可能符合資料共享領域的最高執行標準,旨在確保資料集的可發現性、可訪問性、可互操作性以及可複用性 ; 且整套素材庫不包含任何個人身份資訊。我們將從使用者當中獲取反饋,從而推動該站點的進一步發展。
圖2 資料集分類
微軟開放的資料集中包含很多有用的資料集,以下介紹若干精選資料集:
微軟機器閱讀理解(MS MARCO)是一個全新的閱讀理解和問題解答大型資料集。 在 MS MARCO 中,所有問題都是從真正的匿名使用者查詢中抽樣的。 從上下文語境中得到的回答是使用最高階版本的 Bing 搜尋引擎從真實的 Web 文件中提取的。如果使用者能夠總結答案,則查詢的答案由他們人工生成。
檔案大小:469.03 MB
檔案型別:json
許可證:微軟研究資料許可協議
上次修改時間:6/5/18
類別:社會科學、社交媒體等
詳細資訊:
https://msropendata.com/datasets/2bda14a7-ee25-4092-8f2f-9272d48ae903
用於建立一個自動解決用自然語言編寫的數學單詞問題的計算機系統。SigmaDolphin 是 2013 年初在微軟亞洲研究院啟動的一個專案,其主要目標是建立一個具有自然語言理解和推理能力的計算機智慧系統。我們專注於研發自主解決問題的應用,即自動解決用自然語言編寫的問題(特別是數學問題)。
檔案大小:11.54 MB
檔案型別:json,pdf,pkl,py,txt
許可證:微軟研究資料許可協議
上次修改時間:6/21/18
類別:數學、統計學、邏輯學等
詳細資訊:
https://msropendata.com/datasets/f0e63bb3-717a-4a53-aa79-da339b0d7992
此資料集是從 Twitter 日誌中提取的代表 4232 個三步會話片段的 12,696 個 Tweet ID 集合。資料集中的每一行表示一個單獨的上下文-訊息-響應三元關係,眾包註釋者為上下文響應質量的評分平均為 4 或更高。資料已被隨機分為調優(開發)和測試集,分別包含 2118 和 2114 個三元關係。但這個在自然語言處理社群的資料集僅供學術研究之用。為了訪問底層推文和相關後設資料,你需要呼叫 Twitter API。
如果你在研究中使用類似材料,可以引用以下文章:Alessandro Sordoni,Michel Galley,Michael Auli,Chris Brockett,Jiufeng Feng,Meg Mitchell,Jian-Yun Nie, Jianfeng Gao 和 Bill Dolan,A Neural Network Approach to Context-Sensitive Generation of Conversational Responses, Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2015)。
與此和相關專案的更多資訊可以在 http: //research.microsoft.com/en-us/projects/convo/ 上找到。
檔案大小:245.46 KB
檔案型別:txt
許可證:微軟研究資料
許可協議:微軟研究資料許可協議
上次修改時間:6/21/18
類別:社會科學,社交媒體等
詳細資訊:
https://msropendata.com/datasets/2bda14a7-ee25-4092-8f2f-9272d48ae903
每秒鐘都會產生大量的書面文字,我們如何確保我們有最新的相關資訊供使用呢? 微軟研究蒙特利爾正在通過構建能夠實時讀取和理解大量複雜文字的 AI 系統來解決這個問題。NewsQA 資料集旨在幫助研究團體構建能夠回答需要人類理解和推理技能的問題的演算法。
檔案大小:18.23 MB
檔案型別:csv,md,pdf
許可證:微軟研究資料
許可協議:微軟研究資料許可協議
上次修改時間:6/21/18
類別:電腦科學
詳細資訊:
https://msropendata.com/datasets/939b1042-6402-4697-9c15-7a28de7e1321
這些資料僅可用於研究目的。DESM Word Embeddings 資料集包含一些可能被認為具有冒犯性、不雅或其他令人反感的詞語。 Microsoft 尚未審查或修改資料集的內容。 Microsoft 此資料集僅為了便利的目的,對通過該資料集產生的任何不適內容概不負責。使用資料集需要你自擔風險,保持判斷力。有問題請聯絡論文作者。
檔案大小:10.38 GB
檔案型別:txt
許可證:微軟研究資料
許可協議:微軟研究資料許可協議
上次修改時間:6/21/18
類別:電腦科學
詳細資訊:
https://msropendata.com/datasets/30a504b0-cff2-4d4a-864f-3bc9a66f9d7e
其他的精選資料集還包括 Frames、Filling the Blanks for Mad Libs 等,這裡就不一一詳細介紹了。
微軟此次開放的資料專案其中很多都是微軟內部很先進技術會用到的資料集,資料分類多、覆蓋範圍廣、資源珍貴,且用且珍惜,傳送門先奉上:
https://msropendata.com/
除了提供資料資產下載選項之外,使用者還可以將資料集直接複製至基於 Azure 的 Data Science 虛擬機器當中,具體如圖 3 所示。
圖3 將資料由 microsoftopendata.com 複製至基於 Azure 的 Linux 虛擬機器
“我經常收到進行研究資料共享的請求,而我過去已經進行的單獨分享也獲得了不錯的效果。利用 Azure,我們可以在統一平臺上對資料集進行協調與編目,從而幫助內部與外部研究人員更輕鬆地實現訪問、鼓勵彼此協作。這同時也將為微軟研究院提供便捷的雲共享資料訪問能力。”
-John Krumm,微軟研究院 AI 首席研究員
微軟研究開放資料專案是微軟研究院外聯資料科學計劃的成果之一。在這裡,我們要感謝微軟公司內各團隊、微軟研究人員、行業合作伙伴以及學術顧問之間的能力配合。沒有他們的貢獻,這一專案將不可能順利完成。
原文連結:
https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/