資料至上的人工智慧時代,最好的公開資料集有哪些?

思源發表於2017-02-14

現如今構建人工智慧或機器學習系統比以往的時候更加容易。普遍存在的尖端開源工具如 TensorFlow、Torch 和 Spark,再加上通過 AWS 的大規模計算力、Google Cloud 或其他供應商的雲端計算,這些都意味著你可以在下午休閒時間使用膝上型電腦去訓練出最前沿的機器學習模型。


雖然不算是人工智慧訓練的最前沿,但人工智慧的無名英雄確實就是資料,許多許多標註或未標註的資料。研究部門和公司也都認識到資料民主化是加快人工智慧的必要步驟。


然而,涉及到機器學習或人工智慧的大多數產品強烈依賴於那些通常沒有開放的私有資料集,而本文將指出解決這種困境的辦法。


事實上,我們很難用一篇文章來說明哪些開放資料集是有用的,因為那些有用的開放資料集必須是可概念證明的,而什麼資料集對產品或確認特徵是有用的,在你收集你自己所有資料之前是不知道的。


重要的是,如果資料集有良好的表現並不能保證其訓練的機器學習系統在實際產品場景中表現良好。許多人在構建人工智慧系統時常常忘了構建一個新人工智慧解決方案或產品最困難的部分不是人工智慧本身或演算法,通常最困難的地方是資料收集和標註。標準資料集可以作為驗證或構建更優良解決辦法的良好起點。


在這個星期,我和一些機器學習專家們討論的都是有關標準資料集的問題。為了讓你能更輕鬆地構建人工智慧系統,我們蒐集了一些開源資料集,這些開源資料集是我們認為在人工智慧的世界裡你所需要了解的。


計算機視覺


  • MNIST: 最通用的健全檢查。25x25 的資料集,中心化,B&W 手寫數字。這是個容易的任務——但是在 MNIST 有效,不等同於其本身是有效的。

    地址:http://pjreddie.com/projects/mnist-in-csv/


  • CIFAR 10 & CIFAR 100: 32x32 彩色影像。雖不再常用,但還是用了一次,可以是一項有趣的健全檢查。

    地址:https://www.cs.toronto.edu/~kriz/cifar.html


  • ImageNet: 新演算法實際上的影像資料集。很多圖片 API 公司從其 REST 介面獲取標籤,這些標籤被懷疑與 ImageNet 的下一級 WordNet 的 1000 個範疇很接近。

    地址:http://image-net.org/


  • LSUN: 場景理解具有很多輔助任務(房間佈置評估、顯著性預測等)和一個相關競爭。

    地址:http://lsun.cs.princeton.edu/2016/


  • PASCAL VOC: 通用影像分割/分類:對於構建真實世界的影像註釋毫無用處,對於基線則意義重大。

    地址:http://host.robots.ox.ac.uk/pascal/VOC/


  • SVHN: 來自谷歌街景檢視(Google Street View)的房屋數量。把這想象成荒野之中的週期性 MNIST。

    地址:http://ufldl.stanford.edu/housenumbers/


  • MS COCO: 帶有一個相關性競爭的通用影像理解/字幕。

    地址:http://mscoco.org/


  • Visual Genome: 非常詳細的視覺知識庫,並帶有 100K 影像的深字幕。

    地址:http://visualgenome.org/


  • Labeled Faces in the Wild:通過名稱識別符號,已經為被裁剪的面部區域(用 Viola-Jones)打了標籤。現有人類的子集在資料集中有兩個影像。對於這裡做面部匹配系統訓練的人來說,這很正常。

    地址:http://vis-www.cs.umass.edu/lfw/


自然語言



語音


大多數語音識別資料集是有所有權的,這些資料為收集它們的公司帶來了大量的價值,但在這一領域裡,許多可用的資料集都是比較舊的。


  • 2000 HUB5 English: 僅僅只包含英語的語音資料,最近百度發表的論文《深度語音:擴充套件端對端語音識別(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了該語音資料集。

    地址:https://catalog.ldc.upenn.edu/LDC2002T43


  • LibriSpeech:包括文字和語音的有聲讀物資料集。它是近 500 小時由多人朗讀清晰的各類有聲讀物資料集,且由包含文字和語音的書籍章節組織起結構。

    地址:http://www.openslr.org/12/


  • VoxForge:帶口音的語音清潔資料集,特別是對於如期望對不同口音或腔調的語音有魯棒性需求的系統很有用。

    地址:http://www.voxforge.org/


  • TIMIT:只包含英語的語音識別資料集。

    地址:https://catalog.ldc.upenn.edu/LDC93S1


  • CHIME:包含噪聲的語音識別資料集。該資料集包含真實、模擬和清潔的語音記錄。實際上是記錄四個說話者在四個噪聲源的情況下近 9000 份記錄,模擬資料是在結合話語行為和清潔無噪語音記錄的多環境下生成的。

  • 地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html


  • TED-LIUM:TED 演講的語音轉錄資料集。1495 份 TED 演講的語音記錄,並且這些語音記錄有對應的全文字。

    地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus


推薦和排序系統


  • Netflix Challenge:第一個主要 Kaggle 風格的資料庫。因為存在隱私問題,只能非正式地獲得授權。

    地址:http://www.netflixprize.com/


  • MovieLens:各種電影的評論資料庫,通常用於基線協同過濾(collaborative filtering baselines)。

    地址:https://grouplens.org/datasets/movielens/


  • Million Song Dataset:在 Kaggle 上大量、富後設資料(metadata-rich)、開源的資料集,有利於人們試驗混合推薦系統(hybrid recommendation systems)。

    地址:https://www.kaggle.com/c/msdchallenge


  • Last.fm:音樂推薦資料集,該資料集能有權訪問底層社交網路和其他後設資料,而這樣的資料集正對混合系統有巨大的作用。

    地址:http://grouplens.org/datasets/hetrec-2011/


網路和圖表



地理測繪資料庫



人們常常認為解決一個資料集上的問題就相當於對產品進行了一次完整的審視。因為我們可以使用這些資料集進行驗證或證明一個概念,但是也不要忘了測試模型或原型是如何獲取新的和更實際的資料來提高運算效果,獲得優良產品的。資料驅動的成功公司通常從他們收集新資料、私有資料的能力中獲得力量,從而以一種具有競爭力的方式提高他們的表現。


最後的話


好資料集還有很多,這份列表當然不可能完全覆蓋,如果你知道還有很好的資料集值得推薦,請通過評論與我們分享。

相關文章