為推進科學研究,谷歌呼籲建立標準的資料生態系統

李澤南發表於2017-01-25

谷歌希望在人們的努力之下,我們最終能夠像搜尋論文一樣輕鬆找到自己想要的資料集,新的標準是努力的第一步。


目前網路上有數百個資料庫,它們提供了數以百萬計的資料集。這些資料的提供者包括國家和地方政府、科學和出版機構、資料供應商等等,資料的涵蓋面從社會科學、生命科學到高能物理、氣候科學,幾乎無所不包。這些資料對於促進研究結果的重現至關重要,能夠讓科學家在前人的基礎上繼續探索,讓資料探勘者可以更輕鬆地接觸資訊,探究它背後的意義。出於這些原因,很多出版者和資金提供者現在要求科學家們儘量公開他們的資料。


然而,由於網路上資料儲存的數量龐大,人們會發現難以尋找自己需要的資料集,同時無法核實資訊的來源和真實性。搜尋資料集本應該像搜尋食譜、工作甚至電影一樣簡單——那些型別的搜尋通常是開放式的,能夠偶然的發現搜尋空間中的某些結構。


為了讓書籍、電影、活動、食譜、評測和一系列其他型別的搜尋在谷歌引擎上有更佳表現,我們依賴於各網站上嵌入 schema.org 詞彙的結構資料。為了促進資料集實現類似的功能,我們最近釋出了一個新的指導幫助資料提供商以標準的形式形容他們的資料集,讓谷歌和其他的搜尋引擎可以連線到這些結構化後設資料描述的地理位置、出版商甚至知識圖譜,以便被使用者發現。我們希望這些後設資料可以幫助網上公開的資訊能夠更有效地被人們使用。


Schema.org 上形容資料集的方式基於最近在 W3C(Data Catalog Vocabulary)上的標準化成果,我們認為它是在未來不斷完善描述和改進資料集索引的第一步。雖然各領域還在不斷討論,但我們認為這一標準已經為構建資料生態系統打下了堅實基礎。


技術挑戰


雖然我們已經發布了後設資料的索引指南,但在輕鬆搜尋資料集之前我們還面臨著很多技術挑戰。這些挑戰包括:


  • 資料集定義的一致性:例如,單一表格和大量表格的集合都算是一個資料集嗎?如果都是,蛋白質序列呢?圖片集合呢?用於連結資料的 API 呢?我們希望獲得更多關於資料提供者的定義、解釋以及使用方式。

  • 資料集的識別:在理想狀況下,資料集應該擁有一些被所有人認可的永久標識,讓資料集具有唯一性,但在一些情況下這還不現實。原資料介面的 URL 或許是作為識別符號的不錯選擇,我們需要提供多種識別符號嗎?如果有多重標識的話,需要選擇一個主要標識嗎?

  • 彼此間關聯資料集:什麼時候兩種記錄能夠統一的描述一個資料集?(例如,萬一 repository 從其他人那裡複製來後設資料呢)如果資料整合方(aggregator) 在一個資料集上加入了更多的後設資料,或者以有益的方式清潔了資料呢?我們正在研究如何明晰、定義這些關係。但是,後設資料的消費者不得不假定這些資料提供者不準確描述的資料,並忍受這種情況。

  • 在相關資料集間傳播後設資料:在相關資料集之間我們能夠傳播多少後設資料?例如,我們可能從合成資料集到它包含的子資料集來傳播出處資訊。但經過這樣的傳播,後設資料有了多少的退化?我們預期根據不同的應用退化程度不同:搜尋應用的後設資料可能要比資料融合的精確度更低。

  • 描述資料集的內容:資料集要包含多少的描述內容,從而使得能夠進行類似於 Explore for Docs, Sheets and Slides 中使用的查詢,或者進行資料集的其他探索與重複使用(當然是在許可之下)?我們如何高效的使用供應商使用 W3C 標準已經描述的內容?


除了我們已經列出來的技術和社會挑戰,剩下的許多研究挑戰涉及到長期的開放式研究:許多資料集是用無結構的方式描述的,包括科學論文形式的說明、圖解、表格,以及其他文件。我們能建立提取後設資料的其他有前途的方式。雖然我們有合理的排序網頁搜尋內容的方式,而排序資料集是個挑戰:我們不知道排序網頁的 signals 是否同樣適用於資料集。在資料集內容是公開且可用的情況下,我們可能能夠提取資料集中額外的語義,例如,學習不同領域的值型別。但是,我們是否能夠足夠了解內容,從而能夠進行相關資源的資料融合於挖掘?


呼籲行動


對任何生態系統而言,一個資料系統只有在大量人員共同貢獻的情況下才會繁榮,因此我們呼籲:


個人和資料倉儲提供者:使用 schema.org、DCAT、CSVW 等社群標準公佈結構後設資料,這能使得其他人發現、使用這些後設資料。


資料消費者(科學家到資料新聞更作者等):更準確的引用資料,如同我們引用科學論文一樣。


開發者:為 schema.org (http://schema.org/) 後設資料的資料集的擴充做出貢獻,提供專業領域的詞彙,以及研究使用這一豐富後設資料的工具與應用。


我們最終的目標是幫助建立一個公佈、使用、挖掘資料集的生態系統。如此以來,該生態系統將會包括資料釋出者、整合者(大型資料倉儲方提供資料清洗、調和後設資料等價值)、挖掘資料的搜尋引擎、以及更重要的資料消費者。

相關文章