為推進科學研究，谷歌呼籲建立標準的資料生態系統

李澤南發表於2017-01-25

原文網址 : http://www.jiqizhixin.com/articles/2017-01-25-2

谷歌希望在人們的努力之下，我們最終能夠像搜尋論文一樣輕鬆找到自己想要的資料集，新的標準是努力的第一步。

目前網路上有數百個資料庫，它們提供了數以百萬計的資料集。這些資料的提供者包括國家和地方政府、科學和出版機構、資料供應商等等，資料的涵蓋面從社會科學、生命科學到高能物理、氣候科學，幾乎無所不包。這些資料對於促進研究結果的重現至關重要，能夠讓科學家在前人的基礎上繼續探索，讓資料探勘者可以更輕鬆地接觸資訊，探究它背後的意義。出於這些原因，很多出版者和資金提供者現在要求科學家們儘量公開他們的資料。

然而，由於網路上資料儲存的數量龐大，人們會發現難以尋找自己需要的資料集，同時無法核實資訊的來源和真實性。搜尋資料集本應該像搜尋食譜、工作甚至電影一樣簡單——那些型別的搜尋通常是開放式的，能夠偶然的發現搜尋空間中的某些結構。

為了讓書籍、電影、活動、食譜、評測和一系列其他型別的搜尋在谷歌引擎上有更佳表現，我們依賴於各網站上嵌入 schema.org 詞彙的結構資料。為了促進資料集實現類似的功能，我們最近釋出了一個新的指導幫助資料提供商以標準的形式形容他們的資料集，讓谷歌和其他的搜尋引擎可以連線到這些結構化後設資料描述的地理位置、出版商甚至知識圖譜，以便被使用者發現。我們希望這些後設資料可以幫助網上公開的資訊能夠更有效地被人們使用。

Schema.org 上形容資料集的方式基於最近在 W3C（Data Catalog Vocabulary）上的標準化成果，我們認為它是在未來不斷完善描述和改進資料集索引的第一步。雖然各領域還在不斷討論，但我們認為這一標準已經為構建資料生態系統打下了堅實基礎。

技術挑戰

雖然我們已經發布了後設資料的索引指南，但在輕鬆搜尋資料集之前我們還面臨著很多技術挑戰。這些挑戰包括：

資料集定義的一致性：例如，單一表格和大量表格的集合都算是一個資料集嗎？如果都是，蛋白質序列呢？圖片集合呢？用於連結資料的 API 呢？我們希望獲得更多關於資料提供者的定義、解釋以及使用方式。
資料集的識別：在理想狀況下，資料集應該擁有一些被所有人認可的永久標識，讓資料集具有唯一性，但在一些情況下這還不現實。原資料介面的 URL 或許是作為識別符號的不錯選擇，我們需要提供多種識別符號嗎？如果有多重標識的話，需要選擇一個主要標識嗎？
彼此間關聯資料集：什麼時候兩種記錄能夠統一的描述一個資料集？（例如，萬一 repository 從其他人那裡複製來後設資料呢）如果資料整合方（aggregator) 在一個資料集上加入了更多的後設資料，或者以有益的方式清潔了資料呢？我們正在研究如何明晰、定義這些關係。但是，後設資料的消費者不得不假定這些資料提供者不準確描述的資料，並忍受這種情況。
在相關資料集間傳播後設資料：在相關資料集之間我們能夠傳播多少後設資料？例如，我們可能從合成資料集到它包含的子資料集來傳播出處資訊。但經過這樣的傳播，後設資料有了多少的退化？我們預期根據不同的應用退化程度不同：搜尋應用的後設資料可能要比資料融合的精確度更低。
描述資料集的內容：資料集要包含多少的描述內容，從而使得能夠進行類似於 Explore for Docs, Sheets and Slides 中使用的查詢，或者進行資料集的其他探索與重複使用（當然是在許可之下）？我們如何高效的使用供應商使用 W3C 標準已經描述的內容？

除了我們已經列出來的技術和社會挑戰，剩下的許多研究挑戰涉及到長期的開放式研究：許多資料集是用無結構的方式描述的，包括科學論文形式的說明、圖解、表格，以及其他文件。我們能建立提取後設資料的其他有前途的方式。雖然我們有合理的排序網頁搜尋內容的方式，而排序資料集是個挑戰：我們不知道排序網頁的 signals 是否同樣適用於資料集。在資料集內容是公開且可用的情況下，我們可能能夠提取資料集中額外的語義，例如，學習不同領域的值型別。但是，我們是否能夠足夠了解內容，從而能夠進行相關資源的資料融合於挖掘？

呼籲行動

對任何生態系統而言，一個資料系統只有在大量人員共同貢獻的情況下才會繁榮，因此我們呼籲：

個人和資料倉儲提供者：使用 schema.org、DCAT、CSVW 等社群標準公佈結構後設資料，這能使得其他人發現、使用這些後設資料。

資料消費者（科學家到資料新聞更作者等）：更準確的引用資料，如同我們引用科學論文一樣。

開發者：為 schema.org (http://schema.org/) 後設資料的資料集的擴充做出貢獻，提供專業領域的詞彙，以及研究使用這一豐富後設資料的工具與應用。

我們最終的目標是幫助建立一個公佈、使用、挖掘資料集的生態系統。如此以來，該生態系統將會包括資料釋出者、整合者（大型資料倉儲方提供資料清洗、調和後設資料等價值）、挖掘資料的搜尋引擎、以及更重要的資料消費者。

對標蘋果生態系統！谷歌推進不同平臺間的“互聯互通”JBIM
2022-03-14
蘋果谷歌
使用KPI儀表板，建立完整的資訊資料生態系統
2020-10-15
KPI
谷歌Android正成為物聯網標準作業系統
2022-11-28
谷歌Android作業系統
【IE知識】最系統、完整的標準工時學習資料；標準作業（SOP）詳解；生產線佈局規劃
2018-03-03
聯邦學習將帶來全新的資料合作生態系統
2020-02-12
聯邦學習
CRM系統選擇的五個標準及推薦
2023-03-15
華為雲與北京大學神經科學研究所達成合作，推動AI腦科學研究
2021-04-02
AI
Windows的Linux子系統搭建資料科學環境
2019-04-02
WindowsLinux資料科學
美國馬里蘭州法案呼籲研究區塊鏈監管的可能性
2018-03-25
區塊鏈
中國電信對多國流量劫持，研究員呼籲“訪問互惠”政策
2018-10-27
區塊鏈研究所呼籲提高加密貨幣監管清晰度
2018-08-18
區塊鏈加密
人工智慧也能得“奧斯卡”獎？專家呼籲基礎研究
2019-06-28
人工智慧
【資料科學家】如何成為一名資料科學家？
2018-05-05
資料科學
騰訊提出AI For FEW構想，呼籲人工智慧為地球思考
2019-04-12
AI人工智慧
2024 開源資料工程生態系統全景圖
2024-04-02
進階指南：如何從資料分析師轉型為資料科學家？
2019-02-28
資料科學
資料洩露事件頻發矽谷巨頭呼籲出臺美國版GDPR
2018-10-26
事件
小程式：技術標準與生態的演變
2023-05-09
建立一個受動漫啟發的NFT生態系統
2022-05-23
「顛覆性」科學沒有衰落，谷歌 AI 推動科學發展的 9 種方式
2024-11-21
谷歌AI
Spotify如何改進資料科學家的資料發現？
2022-10-24
資料科學
大資料分析標準如何進行分類
2022-11-21
大資料
呼籲改正《上海市衛生健康資訊科技應用創新白皮書》 C# 被認定為A 元件的錯誤認知
2024-06-24
C#元件
維基解密網店被封，呼籲全球抵制Coinbase
2018-04-29
解密
資料分析的標準SOP！
2022-02-18
Hadoop高階資料分析使用Hadoop生態系統設計和構建大資料系統
2018-11-28
Hadoop大資料
研究顯示覆雜的視訊生態系統提供了機會
2022-07-05
致力於推進人工智慧時代大資料採集標註產業標準化發展
2023-02-02
人工智慧大資料產業
學術加油站｜面向HTAP資料庫的基準評測工具研究進展
2022-11-18
資料庫
資料庫市場格局已變，統一的管理平臺將成為資料庫生態體系的主要入口
2021-08-03
資料庫
深度學習煉丹-資料標準化
2023-02-10
深度學習
改變數字分析生態系統的10個大資料公司
2022-01-03
變數大資料
安信實驗室呼籲鍵盤廠商申請windows徽標認證（WHQL）
2021-05-31
Windows
如何成為資料科學家？ - kdnuggets
2020-10-29
資料科學
生命科學的數字化程式：將患者路徑融入技術生態系統（附下載）
2020-09-09
標準io和系統io的辨析
2024-08-10
CRM系統好用的標準有哪些？
2020-11-25
一步一步學習大資料：Hadoop 生態系統與場景
2018-10-05
大資料Hadoop
目標控制器數字孿生系統的研究與設計
2024-03-21

為推進科學研究，谷歌呼籲建立標準的資料生態系統

相關文章