Twitter私有化其資料,或成科研擋路石

pythontab發表於2013-01-19

Twitter中文稱之為“推特”,擁有著世界上最大的現代語言資料庫,儘管這意味著無限的研究價值,但推特公司方面還是越來越嚴格地限制人們獲取其資料。這真是讓人遺憾。

我們能從Twitter上學到許多,如果維特公司允許。

Twitter私有化其資料,或成科研擋路石

明星、政客、世界各地的政要,新聞機構、成千上萬的普通使用者、甚至偶爾出現的貓,他們每天通過Twitter談論他們的早餐、自然災難、政治事件、以及像奧斯卡和超級碗這樣全球矚目的活動。伴隨著每天數百萬的Twitter釋出量,推特已經成為重要的歷史文化記錄者,亦成為政治學、歷史學、文學、語言學等各種你能想象到的學科的極有價值的資訊來源。但近年來,推特對其資訊服務功能急劇地限制資訊提取,這讓研究者們止步難前。或許推特的學術可能只是個假說吧。


對於大多數研究者來說,他們遇到的困難往往是資料庫不夠大。例如語料庫語言學(Corpus Linguistics),就是一門對數以億計的詞彙資料庫煞費苦心地進行分組和註釋的學科。最大的語料庫有超過四億五千萬個片語,而對於每天有五億條Twitter,平均每條Twitter15個詞的推特來說,這麼大的語料庫不要一天就可以達到了。


無論對於資料愛好者還是專業學者,Twitter已經顯示出其作為資料庫的價值。Edwin Chen是一位推特資料科學家,他將軟飲料的一些關鍵詞“可樂”“蘇打”“汽水”在推特中定位,其得出的結果和推特之外的類似研究結果大部分吻合,這從某種程度上證明了推特作為研究工具的價值。在學術方面,根據紐約時報去年十月的報導,學者通過相關Twitter來研究人們對類似“阿拉伯之春”等一些重大事件的情緒反應,也有學者研究情緒隨日常生活節奏的變化規律。最近,一些研究者發現他們能夠通過機器學習與自然語言處理來預測Twitter中的資訊是否正確。但是推特向媒體公司的轉化正在讓研究者的資訊收集工作越來越難。


由美國標準技術局和美國國防部贊助的國際文字資訊檢索協會 (TREC)自1992年以來就致力於幫助關於資訊檢索的研究工作。之前,該組織舉辦過全文檢索建議期會,該會議旨在幫助律師在法律資料庫查詢相關資訊,幫助醫護人員獲取相關醫療記錄。從2011年開始,該組織有了Twitter記錄專案(microblog track),研究推特上的搜尋行為。


2011年,文字檢索協會准許58個組織在兩週時間內可以獲得1600萬條Twitter訊息,從埃及革命到美國橄欖球超級碗,訊息涵蓋非常豐富。但事情並非如人意。與會者最終得到的只是1600萬條Twitter的標識碼和允許他們自己下載的一套工具軟體。Ian Soboroff是推特公司Twitter記錄專案的領導人,他告訴記者,在推特向學者提供資料之前,人們已經能夠下載自己想要的Twitter資料,只不過那時推特方面不允許他們共享這種資料給其他人。“推特實際上聯絡了數名研究者並命令他們停止分享這些資料”他說。這一系列問題是從推特2011年初的API服務條款推出後開始的,條款中增加了禁止任何Twitter二次分發的一項。


條款的變化直接影響到一系列組織和初創企業。例如Twapperkeeper,一個向使用者提供特定關鍵詞Twitter檔案應用服務,不得不被迫關閉。推特上第一個研究Twitter政治和文化影響力的小組再也不能向感興趣的大眾分享他們的資料。對於其他學者,他們甚至不能收集Twitter資料了。


這一變化大大打擊了推特資料研究。通過共享資料,研究者們能夠互相從資料中挖掘問題、檢查漏洞以及證實該研究的可信度。但推特的條款使這一切不再成為可能。


文字檢索協會(TREC)為與會者提供了Twitter標識碼,Soboroff覺得這種解決方案並沒有讓研究者滿意。“對於推特研究者,在我們獲得一個很好的資料庫之前我們需要一個夠大夠原始的樣本。”解決方案的不完美有數個原因,尤其是資訊完整性不足。推特使用者經常刪除自己的Twitter或把其設為隱私,這意味著Twitter標識碼並不能返回完整的Twitter資料。Soboroff還解釋道,一些研究者對推特提供的下載工具也很頭疼“克隆一個git儲存庫,構建資料庫,執行履帶,儲存資料和分析資料,在如此大的資料下進行分析。”這對Twitter記錄專案(microblog track)來說並不是太大的問題,但他們不得不花大量時間去幫助其他使用者來解決許許多多技術問題。專案組的郵箱被遇到技術障礙的參與者的郵件擠爆。


文字檢索協會(TREC)提供的Twitter下載工具有嚴格的下載限制,參與者僅能從1600萬條Twitter中以每15分鐘呼叫180個API(應用埠)的速度下載資料。以這樣的速度計算下載完全的1600萬條Twitter資料需要兩個星期。想要自己收集Twitter資料的研究者需要使用推特的流API,這種流API能夠提供Twitter的實時反饋,但這種API僅公開了1%的部分。全部公開的API被稱作“消防帶”(firehose),推特方面對其進行了嚴格管控並且要向下載者收費,而且費用遠遠超過了科研院所的承受範圍。Gnip就是“消防帶”服務的代理商,該服務向每千條Twitter收費0.10美元。按這個價格計算的話,文字檢索協會(TREC)需要支付16000美元來獲取1600萬條Twitter,然而這個協會的參與者是完全沒有資助的。


目前推特似乎並沒有跡象要改善現狀,現實是,為了維護利益推特肯定不會這麼做。推特的技術改進乃至最終實現盈利大部分都需要依靠研究者們的發現和成果,前述關於Twitter體現社會真實性的研究就是個很好的例子。推特被科研加以利用的模式易於構想,比如推特前不久推出的“發現選項卡”(Discover tab)把許多有用的Twitter科研結果公諸於眾。但是如果不讓研究者們分享Twitter資料庫,激動人心的研究成果也許會難以出現了。


為了保住底線,推特該何去何從?如果把研究侷限在一小群研究者範圍內,研究成本毫無疑問將會變得昂貴且耗時,群眾參與的利好也不復存在了。況且很多推特之外的研究團隊的Twitter課題是推特內部團隊無法企及的。如果推特自己建立Twitter資料庫,並讓其他研究者有限制地獲取資料,那麼如此大的資料維護帶來的種種困難就會隨之而來,推特方顯然不願承擔這些成本。最佳的方案是,人人蔘與,讓研究員自由獲取並自我維護資料庫。


最現實的選擇是,向研究者們開放Twitter資料。但在開放資料和限制准入之間是否有兩全做法呢?最簡單明瞭的方案就是,將資料庫授權給一家獨立教育機構。“當代英語語料庫”既是這樣一個選擇,這是由美國楊百翰大學管理的全美最大的英語語料庫;任何人都能從該語料庫檢視資料介面,但原始資料始終得到保護。對於推特與日俱增的影響力和不斷豐富的語料資料,相信語言學系必會對此倍感興趣從而接手管理這樣一個Twitter資料庫。



美國國會圖書館的主閱覽室每兩年向公眾開放一次,開放期間有圖書管理員指導人們獲取圖書資源。圖片來自Alex Wong/Getty Images


此外,美國國會圖書館也是一個選擇。該圖書館與推特達成協議將存放推特Twitter的完整檔案,這讓雙方的科研承載力都大大加強。近日,圖書館宣佈已完成Twitter專案的第一階段,想研究者提供資料渠道的服務將指日可待。據悉,圖書館方面已經接到400多個來自不同研究者的資料申請請求,但目前圖書館還無法提供任何幫助。資料規模太大一直是個問題。根據圖書官方,在全部檔案中進行一次搜尋就要耗費24小時,這讓研究者止步難前。(這也解釋了為什麼推特嚴格限制了其可搜尋的Twitter範圍)圖書館方面也承認,“目前從如此大的資料庫中提供科研樣本的技術還遠遠落後於這些資料的產生和分配的技術”。


不管從推特還是從國會圖書館建立一個具有研究意義的資料子集將會非常有用。伴隨著Twitter爆炸式的增長,圖書館怎麼把這些資料方便地提供給搜尋渠道,這將是一個長期而困難的技術難關。現在圖書館僅能提供其資料“在閱覽室有限度獲取”。


當然這肯定不是句號,學術界從來沒有被資料難題阻礙前進步伐。看看那些演講、報紙、雜誌和其他網站,這些媒體可沒有多好的API供人使用,但仍然有人不遺餘力地為分別這些媒體建立了數百萬字的資料庫。研究者們正在想方設法地突破推特的技術限制,Soboroff甚至覺得對於一個並不是以科研盈利為目的的企業來說,推特已經做得很不錯了。這句話不錯,推特與國會圖書館的協議令人鼓舞。更嚴格的准入制度,更多的限制性服務條款,甚至更多的API限制都很符合推特的行事作風。但誰也不清楚國會圖書館能否在資料如此大的情況下提供可用的獲取資訊渠道。


無論將來發生什麼,這個幾乎是當今世界最大的可用的現代語言資料庫,這個對歷史、政治和社會學都極具重要性的社交媒體,將在可見的未來有效地成為科研禁區。多麼令人遺憾。


相關文章