BIG DATA 大資料時代來臨

turingbooks發表於2012-09-25

“大資料時代”已經來臨,並對各個領域都產生了深遠的影響。在商業、經濟及其他領域中,決策行為將日益基於資料和分析而作出,而並非基於經驗和直覺;而在公共衛生、經濟發展和經濟預測等領域中,“大資料”的預見能力也已經嶄露頭角。

資料聚類找出霍亂病因

一種重要的資料彙總形式是聚類,在聚類中,資料被看成是多維空間下的點,空間中相互鄰近的點將被賦予相同的類別。這些類別本身也會被概括表示,比如通過類別質心及類別中的點到質心的平均距離來描述。這些類別的概括資訊綜合在一起形成了全體資料集合的資料彙總結果。

一個利用聚類來解決問題的著名例項發生在很久以前的倫敦,在整個問題的解決中並沒有使用計算機 。內科醫生John Snow在處理霍亂爆發時在城市地圖上標出了病例的發生地點。圖1-1給出了該圖的一個小片段,展示了病例的傳播情況。

enter image description here

圖1-1 在倫敦市地圖上標出的霍亂病例的傳播情況示意圖

圖中顯示,病例聚集在某些交叉路口。這些路口的水井已經被汙染,離這些水井最近的居民染上了疾病,而清潔的水井附近的居民則沒有染病。如果沒對這些資料進行聚類,霍亂的病因就難以揭開。

——摘自《大資料:網際網路大規模資料探勘與分散式處理》

enter image description here

書中分析了海量資料集資料探勘常用的演算法,介紹了目前Web應用的許多重要話題。主要內容包括:

  • 分散式檔案系統以及Map-Reduce工具;
  • 相似性搜尋;
  • 資料流處理以及針對易丟失資料等特殊情況的專用處理演算法;
  • 搜尋引擎技術,如谷歌的PageRank;
  • 頻繁項集挖掘;
  • 大規模高維資料集的聚類演算法;
  • Web應用中的關鍵問題:廣告管理和推薦系統。

作者簡介

Anand Rajaraman 資料庫和Web技術領域權威,創業投資基金Cambrian聯合創始人,史丹佛大學電腦科學系助理教授。Rajaraman職業生涯非常成功:1996年創辦Junglee公司,兩年後該公司被亞馬遜以2.5億美元收購,Rajaraman被聘為亞馬遜技術總監,推動亞馬遜從一個零售商轉型為零售平臺;2000年與人合創Cambrian,孵化出幾個後來被谷歌收購的公司;2005年創辦Kosmix公司並任CEO,該公司2011年被沃爾瑪集團收購。Rajaraman生於印度,在史丹佛大學獲得電腦科學碩士和博士學位。求學期間與人合著的一篇論文榮列近20年來被引用次數最多的論文之一。部落格地址http://anand.typepad.com/datawocky/。

Jeffrey David Ullman 美國國家工程院院士,電腦科學家,史丹佛大學教授。Ullman早年在貝爾實驗室工作,之後任教於普林斯頓大學,十年後加入史丹佛大學直至退休,一生的科研、著書和育人成果卓著。他是ACM會員,曾獲SIGMOD貢獻獎、Knuth獎等多項科研大獎;他是“龍書”《編譯原理》、資料庫領域權威指南《資料庫系統實現》的合著者;麾下多名學生成為了資料庫領域的專家,其中最有名的當屬谷歌創始人Sergey Brin;本書第一作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。

相關文章