在印度展開全球文獻資料探勘,美國專家的大膽做法登上Nature

機器之心發表於2019-07-18
最新一期的《Nature》介紹了一位美國專家在印度展開的巨集偉專案,他利用從 1847 年至今的 7300 萬份文獻中提取的文字和影像建立了一個資料庫,並計劃對其進行資料探勘,其中也包含未經授權的文字。這一做法對多個學科的發展都有所幫助,但其合法性目前尚不明確。

在印度展開全球文獻資料探勘,美國專家的大膽做法登上Nature

Carl Malamud 站在伺服器前,他的團隊準備對 7300 萬篇論文進行資料探勘

Carl Malamud 正努力解放付費論文背後的資訊,他的這一行動獲得了非常多的支援。

Malamud 曾花費數十年時間釋出受版權保護的法律檔案(從建築規範到法庭記錄),並堅持認為這些檔案代表了公共領域的法律,應該向所有公民開放。但現在,這位 60 歲的美國技術專家正轉向一個新目標:解放付費的科學文獻,他認為這可以通過合法的方式做到。

在過去的一年中,Malamud 與印度的研究者合作,構建了一個巨大的文字和影像庫,它們是從 1847 年至今的 7300 萬份文獻中提取的。

這一專案的快取裝置坐落於新德里尼赫魯大學(JNU),目前仍在構建,它的儲存量達到了 576TB。

Malamud 和她在 JNU 的合作伙伴將這一專案命名為 JNU 資料庫(JNU data depot),他表示:「JNU 資料庫並不會收集歷史上所有期刊的所有文章,但數量確實很多。它的大小相當於 Web of Science 資料集的核心資源。」

JUN 資料庫並不允許任何人從它裡面讀取或下載文獻,因為這會破壞發行商的權利。因此,Malamud 設想研究者可以通過計算機軟體爬取文字和資料,通過掃描全世界的科學文獻來抽取核心資訊,這樣就避免了對文字的實際閱讀。

這個前所未有的專案很快引起了許多人的興趣,因為它首次開啟了付費文獻的快速計算分析之路。目前數十個研究團隊已經在挖掘論文以建立基因和化學相關的資料庫,並繪製疾病和蛋白質之間的關聯以生成有用的科學假設。

但出版商的控制經常會限制該專案的進展與推廣,因為他們常常只允許訪問摘要而不是全文。印度、美國和英國的研究者已經計劃使用 JNU 儲存,很多教授也都對該專案非常感興趣。

然而,目前這種庫的法律地位尚不明確。Malamud 在建立這一專案之前諮詢過幾位知識版權律師,希望能避免訴訟。「我們認為自己做的事情是合法的」,他表示。此刻,他正小心翼翼地推進專案:JNU 資料庫是隔絕的,也就是說,沒有人能從網上對其進行訪問。使用者必須採取物理訪問的方式,目前只有不以盈利為目的進行資料探勘的研究者才能獲得訪問許可權。Malamud 表示,他的團隊計劃開放遠端訪問許可權,而且是逐步推進。

資料探勘的力量

加州大學聖克魯茲分校生物資訊學研究者 Max Häussler 表示,JNU 資料儲存可以掃清阻止科學家使用軟體分析研究論文的障礙。他表示,「目前對學術論文進行文字挖掘幾乎是不可能的」,即使像他這樣能夠獲取付費文章的人來說也是不可能的。

在德國柏林 QUEST Center for Transforming Biomedical Research 兼職工作的統計學家 Chris Hartgerink 表示,他現在只能對開放獲取出版商的文章進行文字挖掘,因為「對封閉式出版商的文章進行此類操作會帶來諸多麻煩」。幾年前,Hartgerink 還在荷蘭讀博時,三家出版商在他嘗試下載文章進行文字挖掘後,禁止他訪問它們的期刊。

一些國家修改了法律,允許非商業專案研究者不用經版權所有者允許,即可對其合法獲取的文章進行文字挖掘。英國在 2014 年已經通過此類法律,歐盟今年也表決通過了一項類似法規。

然而,大學學者仍然受限於挖掘資料庫中的文章摘要,畢竟摘要能提供的資訊遠遠少於文章全文。

在印度展開全球文獻資料探勘,美國專家的大膽做法登上Nature

Carl Malamud 和 Andrew Lynn 檢查尼赫魯大學(JNU)專案,該專案旨在從 7300 萬論文中提取文字和影像。

如果想要對研究文章進行文字挖掘,科學家還需要克服技術障礙。出版商使用的版式多種多樣,因此提取文字並不容易,這也是 JNU 團隊目前致力於解決的問題。PDF 轉文字的工具通常無法明確地區分段落、腳註和影像。然而,一旦 JNU 團隊解決了這些問題,其他人就可以節省自己的時間和精力。Malamud 表示,JNU 團隊即將完成對 7300 萬論文的第一輪提取(儘管仍需要檢查錯誤),因此他預計資料庫準備將在今年底完成。

惠及多個領域

早期的愛好者已經準備好使用 JNU 資料庫了,其中著名的一位是印度德里國家植物基因組研究所(NIPGR)的計算生物學家兼英國劍橋大學講師 Gitanjali Yadav。2006 年,Yadav 在 NIPGR 建立了一個有關植物分泌化學物質的資料集 EssOilDB。現在,藥品研發團體和香水製造商將 EssOilDB 資料集視為自身尋求指導的來源。Yadav 認為「Carl 提供的 compendium」可以給她的資料集帶來幫助。

資料集的建立從來都不是容易的事情。在建立 EssOilDB 資料集的過程中,Yadav 的團隊必須從 PubMed 和 Google Scholar 資料庫中爬取相關論文,從他們能找到的完整文字中提取資料,並且親自進入相關資料庫以拷貝稀有期刊的表格內容。Yadav 表示 JNU 資料庫可以加速以上收集資料的過程,目前她的團隊正在編寫用於提取資料的查詢程式。

印度德里基因組學和綜合生物學研究所(IGIB)的生物資訊學研究者 Srinivasan Ramachandran 也受到了 Malamud 計劃的鼓舞。他的團隊執行了一個有關糖尿病 II 型基因的資料集,他們一直從 PubMed 資料庫中爬取相關論文摘要。現在,他希望 JNU 資料庫可以擴充套件其資料探勘的範圍。

MIT 的 Knowledge Futures Group 團隊表示希望繼續挖掘 JNU 資料庫,從而獲得學術出版的演變過程。該團隊成員之一、MIT Media Lab 博士生 James Weis 表示,團隊希望這個資料庫可以預測新興研究領域,並且能夠找出其他方法來替代當前衡量學術影響力的常規度量指標。

做法是否合法?

Malamud 表示,他採用的那些文章從哪兒來並不重要,「資料探勘」並不是消耗性的,也就是說,資料探勘研究者並不會閱讀或呈現他們所分析文章的大部分內容。「你並不能輸入一個 DOI(文章識別符)來獲取那篇文章,」他說道。Malamud 還認為,對有版權的內容進行文字挖掘在美國等國家是合法的。2015 年,Google Books 也做了和 JNU 類似的事情,他們在未購買的情況下對數千份受版權保護的書進行了掃描,而且在搜尋服務中對這些書的片段進行了展示,儘管他們並不允許全本下載或閱讀。然而,美國法院卻判定谷歌全書掃描不構成侵權。

谷歌的代理律師 Joseph Gratz 表示,Google Books 的例子是對判斷非消耗性資料探勘是否合法的一種試驗。儘管谷歌會展示圖書的片段內容,但法院認為,由於被展示的文字篇幅有限,因此不足以構成侵權。此前,谷歌也在掃描經過授權的書籍(很多情況下來自圖書館),儘管並未徵求作者許可。Gratz 表示,版權所有者可能認為,Sci-Hub 或其他未經授權的內容提供給 JNU 庫的情況可能不同於谷歌的做法。然而,這種涉及未授權資源的案子還沒有在美國法庭討論過,因此很難預測判決結果。「有充分的理由證明資源的來源無關緊要,但也有人認為來源很重要。」

當然,這一做法在美國是否合法似乎並沒有那麼大的意義,因為專案建在印度,印度法律怎麼規定才是重點,美利堅大學的一位教授表示。

印度的版權法可能對 Malamud 的做法有所幫助,這也是他將專案建在新德里的另一個原因。德里國家法律大學的助理教授 Arul George Scaria 表示,如果根據印度法律第 52 條中的研究豁免權,谷歌的掃描會被認定為對受版權保護內容的合理利用。

當然,並非每個人都同意這種說法。新德里維迪法律政策中心的一位法律研究員 T. Prashant Reddy 表示,第 52 條允許研究人員影印期刊文章供個人使用,但並不一定允許如 JNU 庫那樣對期刊內容進行全文複製。Reddy 說道,不與使用者共享整篇文章的確有助於解決版權問題,但為了建立資料庫而對文字進行批量複製的做法仍然遊走在「灰色地帶」。

存在風險的計劃

當《自然》雜誌和 15 家出版商交流 JNU 資料庫計劃時,其中 6 家出版商表示他們之前從未聽說過這一專案,在沒有進一步資訊之前他們對其合法性不予置評。但是這 6 家出版商(愛思唯爾、BMJ、美國化學學會、Springer Nature、美國科學促進會、美國國家科學院)都表示,研究者要想挖掘其論文必須首先取得授權。

Malamud 承認該專案存在風險。但是他認為這具備道德重要性,尤其是在印度。印度大學和政府實驗室花費大量資金訂閱期刊,但仍然未能訂閱所有需要的刊物。Sci-Hub 釋出的資料表明,印度人是其網站的最大使用者群體,這說明大學許可證並未走得足夠遠。歐洲和美國的開放獲取運動非常珍貴,而印度也需要解放對科學知識的獲取權利,Malamud 表示,「我認為我們不能等待歐洲和美國解決這個問題,因為時間緊迫。」

原文連結:https://www.nature.com/articles/d41586-019-02142-1


相關文章