編輯手記：海量資料探勘

luli發表於2012-07-04

Web和網際網路商務的普及導致了大量極大規模資料集的產生，大規模資料的應用越來越廣泛，從傳統的零售業到複雜的商業世界，到處都能見到它的身影。通過資料探勘技術可以從這些資料集中發掘資訊。本書集中關注那些已用於解決資料探勘中關鍵問題的實際演算法，這些演算法甚至可能用於最大規模的資料集。

本書一開始討論Map-Reduce框架，該框架是自動實現演算法並行化的重要工具。接著，解釋了區域性敏感雜湊(LSH)的相關技巧。LSH相關的知識體系應該會越來越廣為人知，在非常大規模的資料集中尋找相似物件但並不需要比較每對物件時該技術十分重要。接下來，本書也解釋了流資料處理演算法，當資料流迅速到達而難以對所有資料進行窮盡式處理時需要利用這些演算法進行流資料探勘。本書還介紹了PageRank思想以及用於Web組織的相關技巧。頻繁項集發現、聚類，推薦系統和Web廣告的應用也是本書的涵蓋範圍。在圖書章節設定上，每章末尾都有小結，對重點專有名詞會給出簡要的概況，讓大家對全章內容有一個鞏固和再認識。更有習題幫助大家深入理解正文所講解的知識點。

本書是在Anand Rajaraman和Jeff Ullman於史丹佛大學多年所授的一門名為“Web挖掘”季度課程材料基礎上總結而成，其含金量已可見一斑。提到Jeff Ullman，很自然就能聯想到“龍書”《編譯原理》及資料庫領域權威指南《資料庫系統實現》這兩本書，殊不知，他除了著述經典之外，更是一位孜孜以求的教授，桃李滿天下，其中最有名的當屬谷歌創始人Sergey Brin。第一作者是一位職業非常成功的人士，同樣也是Jeff Ullman的學生，先後建立多家公司，並任亞馬遜等知名公司技術總監，相信其思維方式對DBA及自主創業人士都會有所啟發。譯者是中科院計算技術研究所前瞻研究實驗室資訊檢索課題組組長、中國科學院計算技術研究所博士生導師王斌博士，他同樣也是《資訊檢索導論》的譯者，相信大家拿到這本書的時候會被王老師孜孜以求的態度所感染。強大的作譯者陣容定能打造出閃亮的“大資料”！

資料：資料探勘綜述彙編
2007-08-05
資料探勘（5）：使用mahout做海量資料關聯規則挖掘
2015-08-29
編輯手記：精通Android
2012-08-28
Android
OLAP和資料探勘——資料倉儲手冊
2009-10-27
海量編輯功能，玩轉音樂世界
2022-06-01
hgdb資料編輯
2022-12-02
HGDB之資料編輯
2021-10-13
《Android應用效能優化》編輯手記
2012-09-19
Android優化
資料編輯方案及其工具
2018-07-27
資料包編輯工具bittwiste
2017-12-25
資料網格的編輯
2013-05-11
自學資料探勘
2015-09-16
Web資料探勘
2011-02-11
Web
序列資料探勘
2007-08-05
資料探勘概念
2011-11-15
資料探勘——認識資料
2014-08-28
Git.Framework 框架隨手記--ORM編輯刪除
2014-05-07
GitFramework框架ORM
人工智慧大資料,公開的海量資料集下載,ImageNet資料集下載,資料探勘機器學習資料集下載
2017-07-20
人工智慧大資料機器學習
資料探勘者與資料探勘青年的對話（轉）
2008-12-21
《資料探勘概念與技術》讀書筆記
2017-03-12
筆記
【python資料探勘課程】十六.邏輯迴歸LogisticRegression分析鳶尾花資料
2017-09-10
Python邏輯迴歸
資料探勘（ TO DO LIST）
2019-03-10
資料探勘與生活
2021-06-14
資料探勘的功能
2017-03-19
神奇的資料探勘
2013-10-09
資料探勘概述 (轉)
2007-12-07
資料探勘方向分析
2009-12-31
資料探勘技術
2024-06-02
MongoDB編輯小記
2011-10-21
MongoDB
資料探勘—邏輯迴歸分類—信用卡欺詐分析
2020-12-26
邏輯迴歸
資料探勘的資料分析方法
2014-12-13
資料探勘與資料抽樣
2007-08-05
資料探勘——KNN演算法（手寫數字分類）
2020-12-20
KNN演算法
海量資料處理
2018-03-08
《IDA Pro權威指南（第2版）》編輯手記
2011-11-11
簷頭滴水話求職——《金領簡歷》編輯手記
2012-03-01
求職
資料探勘資源彙總
2008-01-05
《資料探勘：實用機器學習技術》——資料探勘、機器學習一舉兩得
2011-06-09
機器學習

編輯手記：海量資料探勘

相關文章