AI研發者福利！谷歌推出資料集搜尋專用引擎Dataset Search

機器之心發表於2018-09-06

原文網址 : https://juejin.im/post/5b90a657e51d450e5e0c26e7

選自nature，作者：Davide Castelvecchi，機器之心編譯。

9 月 5 日，谷歌釋出了一個幫助研究者查詢線上資料的免費搜尋引擎 Dataset Search。谷歌表示，該引擎面向「科學家、資料記者、資料極客等人群」。該引擎有助於促進資料的開放利用和重複利用。

Dataset Search 測試版地址：toolbox.google.com/datasetsear…

Dataset Search 與谷歌的其他專用搜尋引擎（如用於搜尋新聞和影象的引擎，以及 Google Scholar 和 Google Books）一樣可以免費使用，它基於擁有者對檔案和資料庫的分類方式來查詢檔案和資料集。該引擎讀取檔案內容的方式與搜尋引擎搜尋網頁的方式不同。有專家表示，該引擎填補了這一領域的空白，可以極大地促進開放資料運動的發展，這一運動旨在實現資料的開放利用和重複利用。

政府機構、科學出版社、研究機構甚至是個人研究者在全世界維護著成千上萬的開源資料資源庫，包含了數百萬個資料集。

但那些想知道哪些型別的資料可用，或者那些希望定位已經存在的資料的研究者，通常依賴於口耳相傳的資訊。來自加州山景城的 Google AI 電腦科學家 Natasha Noy 說。

對於那些處於研究生涯早期階段且還沒有建立專業聯絡網路的研究者而言，這個問題尤其嚴重，Noy 說。這對於那些做交叉學科研究的人而言也是個嚴重的缺陷。例如，流行病學家需要訪問氣候資料，其可能與某種病毒的傳播相關。

https://v.qq.com/x/page/c134714yekq.html

分類搜尋

2017 年 1 月，Noy 及其谷歌同事 Dan Brickley 在一篇谷歌部落格（ai.googleblog.com/2017/01/fac…）中首次介紹瞭解決該問題的策略。

典型的搜尋引擎分兩個階段執行。第一個階段是通過在網際網路上持續搜尋來索引可用網頁。第二個階段是對索引網頁進行排序，以使使用者輸入搜尋詞時，搜尋引擎能夠按相關度排序來提供搜尋結果。

Noy 和 Brickley 寫道，為了幫助搜尋引擎索引現有資料集，擁有資料集的人應該使用一個叫作 Schema.org 的標準化詞彙表來「標記」資料集，Schema.org 是谷歌和另外三個搜尋引擎巨頭（微軟、雅虎和 Yandex）一起發起的專案，由 Brickley 管理。谷歌團隊還開發了一種特殊演算法來對搜尋結果中的資料集進行排序。

由於谷歌在網頁搜尋中的主導地位，谷歌正在快速轉入資料生態系統的訊息刺激主要搜尋引擎巨頭進入該戰場，對後設資料進行標準化處理，倫敦資料共享公司 Figshare CEO Mark Hahnel 說道。（Figshare 由霍爾茨布林克出版集團管理，該集團也對 Nature 的出版公司持有大量股份。）

「到 11 月，我們接觸的所有大學的資料都已經標記完成。我認為這對學界的開放資料而言是一項重要變革。」Hahnel 說道。

Hahnel 認為，融資機構有時強制要求研究資料必須可獲取，而只要資訊能夠高效獲取，他們就能達到其最終目的。「這使得投資機構一直嘗試做的事合法化。」

谷歌為使用者提供了能夠同時搜尋多個儲存區的單個介面，希望藉此改變使用者釋出和運用資料的方式。谷歌表示這個專案能夠帶來下列好處：

形成資料共享生態系統，鼓勵資料釋出者依照最佳做法來儲存和釋出資料；
為科學家提供相應平臺，方便大眾引用他們建立的資料集，展現他們的研究成果所帶來的影響力。

搜尋試驗

目前谷歌已經正式對外測試開源資料集搜尋引擎，使用者在鍵入資料集名稱或關鍵資訊後，該搜尋引擎會給出一系列資料來源列表，每一個資料來源都會有簡要的介紹，例如更新日期、作者、版權和內容說明等。值得注意的是，除了資料集資源，該搜尋引擎還能檢索到很多 Kaggle 上的預訓練模型。在機器之心的嘗試中，我們分別以 CIFAR-10、Object Detection 和 SQuAD 為關鍵詞搜尋資料集，發現了一些很有意思的結果。

首先我們檢索了十分常用的影象分類資料集 CIFAR-10，該資料集包含 10 個類別共 60000 張 32x32 的彩色影象，且分為 50000 張訓練影象和 10000 張測試影象。搜尋結果共給出了 9 項來源，包括資料集、預訓練模型和對比結果。

例如在排名第一的搜尋結果中，資料集來自 Kaggle 的 CIFAR-10 Python。在搜尋引擎的簡介頁中，除了給出該資料集的簡要資訊（包括引用此資料集的論文），它甚至還展示了該資料集的使用指南。例如，如下展示頁介紹了該資料集在 Keras 的使用方法：

from os import listdir, makedirs
from os.path import join, exists, expanduser

cache_dir = expanduser(join('~', '.keras'))
if not exists(cache_dir):
    makedirs(cache_dir)
datasets_dir = join(cache_dir, 'datasets') # /cifar-10-batches-py
if not exists(datasets_dir):
    makedirs(datasets_dir)

# If you have multiple input datasets, change the below cp command accordingly, typically:
# !cp ../input/cifar10-python/cifar-10-python.tar.gz ~/.keras/datasets/
!cp ../input/cifar-10-python.tar.gz ~/.keras/datasets/
!ln -s  ~/.keras/datasets/cifar-10-python.tar.gz ~/.keras/datasets/cifar-10-batches-py.tar.gz
!tar xzvf ~/.keras/datasets/cifar-10-python.tar.gz -C ~/.keras/datasets/
複製程式碼

點選第一條資料來源就能跳轉到對應的 Kaggle 頁面，下載和額外資訊都展示在原頁面中。

在採用關鍵詞「Object Detection」進行搜尋的過程中，我們會發現搜尋結果遠遠要比上面多得多，大約會有上百條資料來源。依靠關鍵詞同樣檢索到了非常多流行的開源資料集，它們都適用於目標檢測這一領域。例如 Microsoft COCO、Face Detection 和 Vehicle Number Plate Detection 等。

從「Object Detection」的搜尋結果來看，來自 Kaggle 的資料集佔了一小半，它們都會在 Kaggle 上提供下載與使用指南。其實瀏覽這麼多資料來源，搜尋引擎給出的簡介頁面就顯得非常重要了。我們不需要跳轉到每一個資料集的原地址，僅根據簡介就能瞭解該資料集的大概應用領域與內容。如下展示了 COCO 資料集的簡介頁面：

最後我們檢索了史丹佛的問答資料集「SQuAD」，搜尋結果不僅給出了挑戰賽地址和資料集地址，同時還提供了相似資料集和挑戰賽的地址。但是在我們檢索「SQuAD 2.0」的時候，並沒有搜尋到史丹佛大學釋出的機器閱讀理解問答資料集 SQuAD 2.0，也可能是該資料集太新，還沒有被搜尋引擎收錄。

合作機構

谷歌這一嘗試的早期支持者是美國國家海洋和大氣管理局（NOAA）。該機構的職權範圍從漁業到日冕，其檔案包含近 7 萬個資料集，包括 19 世紀的船舶日誌。這些資料的總容量超過 35 PB，相當於 35000 個典型硬碟的容量。

谷歌這一工具 Dataset Search 將幫助 NOAA 完成資料開放的使命，NOAA 首席資料官 Edward Kearns 表示。「我們想探索新的方法，使其他人也能使用這些資料。」

與資料擁有者展開合作是執行 Dataset Search 的關鍵步驟。儘管這一系統未來可能變得更加複雜，谷歌目前不打算像處理網頁和影象那樣讀取或分析資料。Noy 表示，「只有資料釋出者提供的後設資料足夠好，這種搜尋工具才能夠好。」

和 Google Scholar 一樣，Dataset Search 目前不提供自動化查詢或應用程式程式設計介面（API），儘管谷歌表示將來可能會增加這一功能。

Noy 表示當研究人員開始使用 Dataset Search 時，谷歌將會觀察他們如何與其互動，並利用這些資訊來改進搜尋結果。她還表示，公司尚未打算把該服務商業化。

隨著 Dataset Search 的不斷改進，未來它也許會跟 Google Scholar 整合，將特定研究領域的搜尋結果關聯到相關資料集。

原文連結：www.nature.com/articles/d4…

谷歌上線資料搜尋引擎 Dataset Search
2018-09-06
谷歌
入局AI Search，阿里國際推出全球首個B2B AI搜尋引擎Accio
2024-11-14
AI阿里
OpenAI新AI搜尋將顛覆谷歌等傳統搜尋引擎
2024-02-22
OpenAI谷歌
海量資料搜尋---搜尋引擎
2018-11-13
海量資料搜尋---demo展示百度、谷歌搜尋引擎的實現
2019-09-06
谷歌
win10谷歌瀏覽器怎樣設定用谷歌搜尋引擎 win10谷歌瀏覽器使用谷歌搜尋引擎的設定方法
2020-09-18
Win10谷歌瀏覽器
用Python實現一個大資料搜尋引擎
2019-02-25
Python大資料
tpextbuilder- Search 搜尋
2021-08-29
UI
搜尋引擎-03-搜尋引擎原理
2024-04-04
過濾搜尋引擎的抓取資料
2020-04-17
最佳路徑搜尋（二）：啟發式搜尋（代價一致搜尋（Dijkstra search），貪心搜尋，A*搜尋）
2021-01-02
HTML input search搜尋域
2019-01-15
HTML
直播開發app，實時搜尋、搜尋引擎框
2022-03-29
APP
Yii2 search 搜尋[資料小部件--GridView--資料過濾]
2018-11-05
View
1688關鍵字搜尋新品資料API介面（item_search_new-按關鍵字搜尋新品
2023-04-06
API
傻雕：谷歌新AI搜尋分不清真假
2024-05-24
谷歌AI
揭秘淘寶搜尋API：打造你的專屬購物搜尋引擎！
2023-10-08
API
47_初識搜尋引擎_search api的基礎語法介紹
2024-10-02
API
關於 SAP 產品 UI 的搜尋引擎優化 SEO - Search Engine Optimization
2021-08-07
UI優化
用elasticsearch和nuxtjs搭建bt搜尋引擎
2018-10-02
ElasticsearchUXJS
阿里推薦與搜尋引擎-AI·OS綜述
2018-10-10
阿里AI
127盤搜網網盤資源搜尋引擎
2019-05-11
搜尋引擎es-分詞與搜尋
2024-08-27
分詞
PDF Search for Macpdf檔案搜尋工具
2020-12-03
Mac
谷歌推出Google Vids新AI影片應用
2024-04-13
谷歌GoAI
sphinx 全文搜尋引擎
2019-02-16
高效利用搜尋引擎
2018-08-17
ElasticSearch全文搜尋引擎
2019-07-29
Elasticsearch
用 Golang 寫一個搜尋引擎（0x09）— 資料增，刪，改
2019-02-13
Golang
搭資料洩露的順風車，搜尋引擎DuckDuckGo 日搜尋量突破3000萬
2018-10-14
Go
PDF Search for Mac(pdf檔案搜尋工具)13.6啟用版
2023-11-05
Mac
實測4大AI搜尋：ChatGPT Search頻翻車，Perplexity仍是「王者」
2024-11-01
AIChatGPT
新一代海量資料搜尋引擎 TurboSearch 來了！
2020-04-06
谷歌搜尋正在死去 | DKB
2022-02-16
谷歌
谷歌搜尋用上BERT，10%搜尋結果將改善
2019-11-01
谷歌
pdf檔案搜尋工具：PDF Search Mac
2022-03-27
Mac
PDF檔案搜尋工具PDF Search for Mac
2022-07-22
Mac
PDF文件搜尋工具：PDF Search Mac版
2022-04-17
Mac

AI研發者福利！谷歌推出資料集搜尋專用引擎Dataset Search

相關文章