AI研發者福利!谷歌推出資料集搜尋專用引擎Dataset Search

機器之心發表於2018-09-06

選自nature,作者:Davide Castelvecchi,機器之心編譯。

9 月 5 日,谷歌釋出了一個幫助研究者查詢線上資料的免費搜尋引擎 Dataset Search。谷歌表示,該引擎面向「科學家、資料記者、資料極客等人群」。該引擎有助於促進資料的開放利用和重複利用。

Dataset Search 測試版地址:toolbox.google.com/datasetsear…

Dataset Search 與谷歌的其他專用搜尋引擎(如用於搜尋新聞和影象的引擎,以及 Google Scholar 和 Google Books)一樣可以免費使用,它基於擁有者對檔案和資料庫的分類方式來查詢檔案和資料集。該引擎讀取檔案內容的方式與搜尋引擎搜尋網頁的方式不同。有專家表示,該引擎填補了這一領域的空白,可以極大地促進開放資料運動的發展,這一運動旨在實現資料的開放利用和重複利用。

政府機構、科學出版社、研究機構甚至是個人研究者在全世界維護著成千上萬的開源資料資源庫,包含了數百萬個資料集。

但那些想知道哪些型別的資料可用,或者那些希望定位已經存在的資料的研究者,通常依賴於口耳相傳的資訊。來自加州山景城的 Google AI 電腦科學家 Natasha Noy 說。

對於那些處於研究生涯早期階段且還沒有建立專業聯絡網路的研究者而言,這個問題尤其嚴重,Noy 說。這對於那些做交叉學科研究的人而言也是個嚴重的缺陷。例如,流行病學家需要訪問氣候資料,其可能與某種病毒的傳播相關。

https://v.qq.com/x/page/c134714yekq.html

分類搜尋

2017 年 1 月,Noy 及其谷歌同事 Dan Brickley 在一篇谷歌部落格(ai.googleblog.com/2017/01/fac…)中首次介紹瞭解決該問題的策略。

典型的搜尋引擎分兩個階段執行。第一個階段是通過在網際網路上持續搜尋來索引可用網頁。第二個階段是對索引網頁進行排序,以使使用者輸入搜尋詞時,搜尋引擎能夠按相關度排序來提供搜尋結果。

Noy 和 Brickley 寫道,為了幫助搜尋引擎索引現有資料集,擁有資料集的人應該使用一個叫作 Schema.org 的標準化詞彙表來「標記」資料集,Schema.org 是谷歌和另外三個搜尋引擎巨頭(微軟、雅虎和 Yandex)一起發起的專案,由 Brickley 管理。谷歌團隊還開發了一種特殊演算法來對搜尋結果中的資料集進行排序。

由於谷歌在網頁搜尋中的主導地位,谷歌正在快速轉入資料生態系統的訊息刺激主要搜尋引擎巨頭進入該戰場,對後設資料進行標準化處理,倫敦資料共享公司 Figshare CEO Mark Hahnel 說道。(Figshare 由霍爾茨布林克出版集團管理,該集團也對 Nature 的出版公司持有大量股份。)

「到 11 月,我們接觸的所有大學的資料都已經標記完成。我認為這對學界的開放資料而言是一項重要變革。」Hahnel 說道。

Hahnel 認為,融資機構有時強制要求研究資料必須可獲取,而只要資訊能夠高效獲取,他們就能達到其最終目的。「這使得投資機構一直嘗試做的事合法化。」

谷歌為使用者提供了能夠同時搜尋多個儲存區的單個介面,希望藉此改變使用者釋出和運用資料的方式。谷歌表示這個專案能夠帶來下列好處:

  • 形成資料共享生態系統,鼓勵資料釋出者依照最佳做法來儲存和釋出資料;

  • 為科學家提供相應平臺,方便大眾引用他們建立的資料集,展現他們的研究成果所帶來的影響力。


搜尋試驗

目前谷歌已經正式對外測試開源資料集搜尋引擎,使用者在鍵入資料集名稱或關鍵資訊後,該搜尋引擎會給出一系列資料來源列表,每一個資料來源都會有簡要的介紹,例如更新日期、作者、版權和內容說明等。值得注意的是,除了資料集資源,該搜尋引擎還能檢索到很多 Kaggle 上的預訓練模型。在機器之心的嘗試中,我們分別以 CIFAR-10、Object Detection 和 SQuAD 為關鍵詞搜尋資料集,發現了一些很有意思的結果。

首先我們檢索了十分常用的影象分類資料集 CIFAR-10,該資料集包含 10 個類別共 60000 張 32x32 的彩色影象,且分為 50000 張訓練影象和 10000 張測試影象。搜尋結果共給出了 9 項來源,包括資料集、預訓練模型和對比結果。

AI研發者福利!谷歌推出資料集搜尋專用引擎Dataset Search

例如在排名第一的搜尋結果中,資料集來自 Kaggle 的 CIFAR-10 Python。在搜尋引擎的簡介頁中,除了給出該資料集的簡要資訊(包括引用此資料集的論文),它甚至還展示了該資料集的使用指南。例如,如下展示頁介紹了該資料集在 Keras 的使用方法:

from os import listdir, makedirs
from os.path import join, exists, expanduser

cache_dir = expanduser(join('~', '.keras'))
if not exists(cache_dir):
    makedirs(cache_dir)
datasets_dir = join(cache_dir, 'datasets') # /cifar-10-batches-py
if not exists(datasets_dir):
    makedirs(datasets_dir)

# If you have multiple input datasets, change the below cp command accordingly, typically:
# !cp ../input/cifar10-python/cifar-10-python.tar.gz ~/.keras/datasets/
!cp ../input/cifar-10-python.tar.gz ~/.keras/datasets/
!ln -s  ~/.keras/datasets/cifar-10-python.tar.gz ~/.keras/datasets/cifar-10-batches-py.tar.gz
!tar xzvf ~/.keras/datasets/cifar-10-python.tar.gz -C ~/.keras/datasets/
複製程式碼

點選第一條資料來源就能跳轉到對應的 Kaggle 頁面,下載和額外資訊都展示在原頁面中。

在採用關鍵詞「Object Detection」進行搜尋的過程中,我們會發現搜尋結果遠遠要比上面多得多,大約會有上百條資料來源。依靠關鍵詞同樣檢索到了非常多流行的開源資料集,它們都適用於目標檢測這一領域。例如 Microsoft COCO、Face Detection 和 Vehicle Number Plate Detection 等。

從「Object Detection」的搜尋結果來看,來自 Kaggle 的資料集佔了一小半,它們都會在 Kaggle 上提供下載與使用指南。其實瀏覽這麼多資料來源,搜尋引擎給出的簡介頁面就顯得非常重要了。我們不需要跳轉到每一個資料集的原地址,僅根據簡介就能瞭解該資料集的大概應用領域與內容。如下展示了 COCO 資料集的簡介頁面:

AI研發者福利!谷歌推出資料集搜尋專用引擎Dataset Search


最後我們檢索了史丹佛的問答資料集「SQuAD」,搜尋結果不僅給出了挑戰賽地址和資料集地址,同時還提供了相似資料集和挑戰賽的地址。但是在我們檢索「SQuAD 2.0」的時候,並沒有搜尋到史丹佛大學釋出的機器閱讀理解問答資料集 SQuAD 2.0,也可能是該資料集太新,還沒有被搜尋引擎收錄。


合作機構

谷歌這一嘗試的早期支持者是美國國家海洋和大氣管理局(NOAA)。該機構的職權範圍從漁業到日冕,其檔案包含近 7 萬個資料集,包括 19 世紀的船舶日誌。這些資料的總容量超過 35 PB,相當於 35000 個典型硬碟的容量。

谷歌這一工具 Dataset Search 將幫助 NOAA 完成資料開放的使命,NOAA 首席資料官 Edward Kearns 表示。「我們想探索新的方法,使其他人也能使用這些資料。」

與資料擁有者展開合作是執行 Dataset Search 的關鍵步驟。儘管這一系統未來可能變得更加複雜,谷歌目前不打算像處理網頁和影象那樣讀取或分析資料。Noy 表示,「只有資料釋出者提供的後設資料足夠好,這種搜尋工具才能夠好。」

和 Google Scholar 一樣,Dataset Search 目前不提供自動化查詢或應用程式程式設計介面(API),儘管谷歌表示將來可能會增加這一功能。

Noy 表示當研究人員開始使用 Dataset Search 時,谷歌將會觀察他們如何與其互動,並利用這些資訊來改進搜尋結果。她還表示,公司尚未打算把該服務商業化。

隨著 Dataset Search 的不斷改進,未來它也許會跟 Google Scholar 整合,將特定研究領域的搜尋結果關聯到相關資料集。AI研發者福利!谷歌推出資料集搜尋專用引擎Dataset Search



相關文章