編輯手記:海量資料探勘

luli發表於2012-07-04

Web和網際網路商務的普及導致了大量極大規模資料集的產生,大規模資料的應用越來越廣泛,從傳統的零售業到複雜的商業世界,到處都能見到它的身影。通過資料探勘技術可以從這些資料集中發掘資訊。本書集中關注那些已用於解決資料探勘中關鍵問題的實際演算法,這些演算法甚至可能用於最大規模的資料集。

本書一開始討論Map-Reduce框架,該框架是自動實現演算法並行化的重要工具。接著,解釋了區域性敏感雜湊(LSH)的相關技巧。LSH相關的知識體系應該會越來越廣為人知,在非常大規模的資料集中尋找相似物件但並不需要比較每對物件時該技術十分重要。接下來,本書也解釋了流資料處理演算法,當資料流迅速到達而難以對所有資料進行窮盡式處理時需要利用這些演算法進行流資料探勘。本書還介紹了PageRank思想以及用於Web組織的相關技巧。頻繁項集發現、聚類,推薦系統和Web廣告的應用也是本書的涵蓋範圍。在圖書章節設定上,每章末尾都有小結,對重點專有名詞會給出簡要的概況,讓大家對全章內容有一個鞏固和再認識。更有習題幫助大家深入理解正文所講解的知識點。

本書是在Anand Rajaraman和Jeff Ullman於史丹佛大學多年所授的一門名為“Web挖掘”季度課程材料基礎上總結而成,其含金量已可見一斑。提到Jeff Ullman,很自然就能聯想到“龍書”《編譯原理》及資料庫領域權威指南《資料庫系統實現》這兩本書,殊不知,他除了著述經典之外,更是一位孜孜以求的教授,桃李滿天下,其中最有名的當屬谷歌創始人Sergey Brin。第一作者是一位職業非常成功的人士,同樣也是Jeff Ullman的學生,先後建立多家公司,並任亞馬遜等知名公司技術總監,相信其思維方式對DBA及自主創業人士都會有所啟發。譯者是中科院計算技術研究所前瞻研究實驗室資訊檢索課題組組長、中國科學院計算技術研究所博士生導師王斌博士,他同樣也是《資訊檢索導論》的譯者,相信大家拿到這本書的時候會被王老師孜孜以求的態度所感染。強大的作譯者陣容定能打造出閃亮的“大資料”!

相關文章