大資料:快速有效地檢索大量資料

pythontab發表於2013-03-10

平行檢索和MapReduce等技術,讓Google等公司在大資料處理領域脫穎而出。不過我們使用的傳統資料處理系統,在處理大資料時捉襟見肘。且看Apache協議下的開源框架Hadoop,加上德國科學家的努力,能否帶來新的可能。

不只科研機構需要處理大量資料,企業也需要。傳統資料庫管理系統經常不能勝任,而大資料的檢索缺少合適的軟體。薩爾布呂肯(德國西南部邊境城市)的計算機專家創造了一種方法,可以快速有效檢索大量資料。

“大資料”指數量龐大的電子資訊,規模大而且複雜,傳統技術很難處理。歐洲核子研究組織(CERN)之類的科研機構,Google和Facebook等大企業,都會需要處理大資料來做戰略決策。《紐約時報》去年的一篇文章,寫到大資料分析的成功案例:美國Target(目標)公司透過分析一個女孩的消費行為,知道她懷孕了,那時她爸還不知道。

需要分析的資料,會分散放在網路上的若干伺服器中,一些伺服器同時收到檢索詞,平行檢索。傳統資料管理系統找不到全部例項,要麼是不能處理大資料,要麼是讓使用者很難用。因此資料分析專家喜歡Apache Hadoop框架下並使用HDFS檔案系統的開源工具,這些工具不需要專業知識。“只要熟悉Java,就能做不少事”,德國薩爾州大學資訊系統教授Jens Dittrich說。不過他也坦言,Hadoop處理大資料受限制,比不上專門為平行處理設計的資料系統。

Dittrich和同事為了解決這個問題,開發了“Hadoop強力索引庫”,縮寫為HAIL(冰雹),使得資料以特殊方式儲存在HDFS檔案系統上,檢索可以加快100倍。研究人員使用的方法,你在電話簿裡就能找到:聯絡人名字可以用姓氏來排列,這種排列就產生我們所說的索引。研究人員對若干伺服器上的資料做索引,和電話簿索引不太一樣的是,他們的索引是基於若干不同標準,單次索引,多次儲存。“使用的標準越多,快速找到資料的可能性越大”Dittrich解釋說,“仍然用電話簿的例子,如果你有6個電話簿,分別按名字、街道、郵編、城市、手機號排列,你就能依據多個標準檢索,更快找到聯絡人。”除此之外,Dittrich和研究團隊做索引時並不需要額外費用,他們合理安排索引過程,這樣就不需要額外的計算時間和延遲,甚至儲存空間都只需要很少。

研究人員將在漢諾威3月5日的德國漢諾威國際資訊及通訊技術博覽會上展示他們的成果。


相關文章