資料探勘：概念與技術(原書第3版)

內容簡介

　　《資料探勘：概念與技術(原書第3版)》完整全面地講述資料探勘的概念、方法、技術和最新研究進展。本書對前兩版做了全面修訂，加強和重新組織了全書的技術內容，重點論述了資料預處理、頻繁模式挖掘、分類和聚類等的內容，還全面講述了olap和離群點檢測，並研討了挖掘網路、複雜資料型別以及重要應用領域。
　　《資料探勘：概念與技術(原書第3版)》是資料探勘和知識發現領域內的所有教師、研究人員、開發人員和使用者都必讀的參考書，是一本適用於資料分析、資料探勘和知識發現課程的優秀教材，可以用做高年級本科生或者一年級研究生的資料探勘導論教材。

前言

　　社會的計算機化顯著地增強了我們產生和收集資料的能力。大量資料從我們生活的每個角落湧出。儲存的或瞬態的資料的爆炸性增長已激起對新技術和自動工具的需求，以幫助我們智慧地將海量資料轉換成有用的資訊和知識。這導致稱做資料探勘的一個電腦科學前沿學科的產生，這是一個充滿希望和欣欣向榮並具有廣泛應用的學科。資料探勘通常又稱為資料中的知識發現（KDD），是自動地或方便地提取代表知識的模式；這些模式隱藏在大型資料庫、資料倉儲、Web、其他大量資訊庫或資料流中。
　　本書考察知識發現和資料探勘的基本概念和技術。作為一個多學科領域，資料探勘從多個學科汲取營養。這些學科包括統計學、機器學習、模式識別、資料庫技術、資訊檢索、網路科學、知識庫系統、人工智慧、高效能運算和資料視覺化。我們提供發現隱藏在大型資料集中的模式的技術，關注可行性、有用性、有效性和可伸縮性問題。因此，本書不打算作為資料庫系統、機器學習、統計學或其他某領域的導論，儘管我們確實提供了這些領域的必要背景材料，以便讀者理解它們各自在資料探勘中的作用。本書是對資料探勘的全面介紹。對於計算科學的學生、應用開發人員、行業專業人員以及涉及以上列舉的學科的研究人員，本書應當是有用的。
　　資料探勘出現於20世紀80年代後期，20世紀90年代有了突飛猛進的發展，並可望在新千年繼續繁榮。本書全面展示該領域，介紹有趣的資料探勘技術和系統，並討論資料探勘的應用和研究方向。寫本書的重要動機是需要建立一個學習資料探勘的有組織的框架——由於這個快速發展領域的多學科特點，這是一項具有挑戰性的任務。我們希望本書有助於具有不同背景和經驗的人交換關於資料探勘的見解，為進一步促進這個令人激動的、不斷髮展的領域的成長做出貢獻。
　　本書的組織
　　自本書第1版、第2版出版以來，資料探勘領域已經取得了重大進展，開發出了許多新的資料探勘方法、系統和應用，特別是對於處理包括資訊網路、圖、複雜結構和資料流，以及文字、Web、多媒體、時間序列、時間空間資料在內的新的資料型別。這種快速發展、新技術不斷湧現使得在一本書中涵蓋整個領域的廣泛內容非常困難。因此，我們決定與其繼續擴大本書的涵蓋面，還不如讓本書以足夠的廣度和深度涵蓋該領域的核心內容，而把複雜資料型別的處理留給另一本即將面世的書。
　　第3版對本書的前兩版做了全面修訂，加強和重新組織了全書的技術內容，顯著地擴充和加強處理一般資料型別挖掘的核心技術。第2版中討論特定主題的章節（例如，資料預處理、頻繁模式挖掘、分類和聚類）在這一版都被擴充，每章都分成兩章。對於這些主題，一章囊括基本概念和技術，而另一章提供高階概念和方法。
　　第2版關於複雜資料型別的章節（例如，流資料、序列資料、圖結構資料、社會網路資料和多重關係資料，以及文字、Web、多媒體和時間空間資料）現在保留給專門介紹資料探勘的高階課題的新書。為了支援讀者學習這些高階課題，我們把第2版的相關章節的電子版放在本書的網站上，作為第3版的配套材料。
　　第3版各章的簡要內容如下（重點介紹新的內容）：
　　第1章提供關於資料探勘的多學科領域的導論。該章討論導致需要資料探勘的資料庫技術的發展歷程和資料探勘應用的重要性。該章考察挖掘的資料型別，包括關係的、事務的和資料倉儲資料，以及複雜的資料型別，如時間序列、序列、資料流、時間空間資料、多媒體資料、文字資料、圖、社會網路和Web資料。該章根據所挖掘的知識型別、所使用的技術以及目標應用的型別，對資料探勘任務進行了一般分類。最後討論該領域的主要挑戰。
　　第2章介紹一般資料特徵。該章首先討論資料物件和屬性型別，然後介紹基本統計資料描述的典型度量。該章概述各種型別資料的資料視覺化技術。除了數值資料的視覺化方法外，還介紹文字、標籤、圖和多維資料的視覺化方法。第2章還介紹度量各種型別資料的相似性和相異性的方法。
　　第3章介紹資料預處理技術。該章首先介紹資料質量的概念，然後討論資料清理、資料整合、資料歸約、資料變換和資料離散化的方法。
　　第4章和第5章是資料倉儲、OLAP（聯機分析處理）和資料立方體技術的引論。第4章介紹資料倉儲和OLAP的基本概念、建模、結構、一般實現，以及資料倉儲和其他資料泛化的關係。第5章更深入地考察資料立方體技術，詳細地研究資料立方體的計算方法，包括Star-Cubing和高維OLAP方法。該章還討論資料立方體和OLAP技術的進一步研究，如抽樣立方體、排序立方體、預測立方體、用於複雜資料探勘查詢的多特徵立方體和發現驅動的資料立方體的探查。
　　第6章和第7章介紹挖掘大型資料集中的頻繁模式、關聯和相關性的方法。第6章介紹基本概念，如購物籃分析，還有條理地提供了許多頻繁項集挖掘技術。這些涵蓋從基本Apriori演算法和它的變形，到改進效能的更高階的方法，包括頻繁模式增長方法，使用資料的垂直形式的頻繁模式挖掘，挖掘閉頻繁項集和極大頻繁項集。該章還討論模式評估方法並介紹挖掘相關模式的度量。第7章介紹高階模式挖掘方法。該章討論多層和多維空間中的模式挖掘，挖掘稀有和負模式，挖掘巨型模式和高維空間資料，基於約束的模式挖掘和挖掘壓縮或近似模式。該章還介紹模式探查和應用的方法，包括頻繁模式的語義註解。
　　第8章和第9章介紹資料分類方法。由於分類方法的重要性和多樣性，內容被劃分成兩章。第8章介紹分類的基本概念和方法，包括決策樹歸納、貝葉斯分類和基於規則的分類。該章還討論模型評估和選擇方法，以及提高分類準確率的方法，包括組合方法和處理不平衡資料。第9章討論分類的高階方法，包括貝葉斯信念網路、後向傳播的神經網路技術、支援向量機、使用頻繁模式的分類、k-最鄰近分類、基於案例的推理、遺傳演算法、粗糙集理論和模糊集方法。附加的主題包括多類分類、半監督分類、主動學習和遷移學習。
　　聚類分析是第10章和第11章的主題。第10章介紹資料聚類的基本概念和方法，包括基本聚類分析方法的概述、劃分方法、層次方法、基於密度的方法和基於網格的方法。該章還介紹聚類評估方法。第11章討論聚類的高階方法，包括基於機率模型的聚類、聚類高維資料、聚類圖和網路資料，以及基於約束的聚類。
　　第12章專門討論離群點檢測。本章介紹離群點的基本概念和離群點分析，並從各種監督力度（監督的、半監督的和無監督的）以及方法角度（統計學方法、基於鄰近性的方法、基於聚類的方法和基於分類的方法）討論離群點檢測方法。該章還討論挖掘情境離群點和集體離群點，以及高維資料中的離群點檢測。
　　最後，在第13章我們討論資料探勘的趨勢、應用和研究前沿。我們簡略地介紹挖掘複雜資料型別，包括挖掘序列資料（例如，時間序列、符號序列和生物學序列），挖掘圖和網路，以及挖掘空間、多媒體、文字和Web資料。這些資料探勘方法的深入討論留給正在撰寫的資料探勘高階課題一書。然後，該章轉向討論其他資料探勘方法學，包括統計學資料探勘、資料探勘基礎、可視和聽覺資料探勘，以及資料探勘的應用。討論資料探勘在金融資料分析、零售和電信產業、科學與工程，以及入侵檢測和預防方面的應用。該章還討論資料探勘與推薦系統的聯絡。由於資料探勘出現在我們日常生活的方方面面，所以我們討論資料探勘與社會，包括無處不在和無形的資料探勘，以及隱私、安全和資料探勘對社會的影響。我們用考察資料探勘的發展趨勢結束本書。
　　書中楷體字用於強調定義的術語，而黑體字用於突出主要思想。
　　本書與其他資料探勘教材相比具有一些顯著特點：它廣泛、深入地討論了資料探勘原理。各章儘可能是自包含的，使得讀者可以按自己感興趣的次序閱讀。高階章節提供了更大的視野，感興趣的讀者可以選讀。本書提供了資料探勘的所有主要方法，還提供了關於多維OLAP分析等資料探勘的重要主題，這些主題在其他書中常常被忽略或很少提及。本書還維護了一個網站，其中包含大量線上資源，為教師、學生和該領域的專業人員提供支援。這些將在下面介紹。
　　致教師

.　　本書旨在提供資料探勘領域的一個廣泛而深入的概覽，可以作為高年級本科生或一年級研究生的資料探勘導論。除了講稿、教師指南和閱讀材料列表等教學資源之外，本書網站（~hanj/bk3或）還提供了一個樣本課程安排。
　　根據授課學時、學生的背景和你的興趣，你可以選取章節的子集，以不同的順序進行講授。例如，如果你只打算給學生講授資料探勘入門導論，可以按照圖P.1的建議。注意，根據需要，必要時可以省略其中某些節或某些小節。
　　圖P.1入門導論課程的建議章節序列
　　根據學時和講授範圍，你可以有選擇地把更多的章節增加到這個基本序列中。例如，對高階分類方法更感興趣的教師可以首先增加“第9章分類：高階方法”；對模式挖掘更感興趣的教師可以選擇包括“第7章高階模式挖掘”；而對OLAP和資料立方體技術感興趣的教師可以增加“第4章資料倉儲與聯機分析處理”和“第5章資料立方體技術”。
　　或者，你可以選擇在兩個學期的系列課程中講授整本書，包括本書的所有章節，時間允許的話，加上圖和網路挖掘這樣的高階課題。這些高階課題可以從本書網站提供的配套材料選擇，輔以挑選的研究論文。
　　本書的每一章都可以用做自學材料，或者用做資料庫系統、機器學習、模式識別和資料智慧分析等相關課程的專題。
　　每章後面都有一些習題，適合作為家庭作業。這些習題或者是用於測驗對內容的掌握情況的小問題，或者是需要分析思考的大問題，或者是實現設計。有些習題也可以用做研究討論課題。每章後面的文獻註釋可以用來查詢包含正文中提供的概念和方法的來源、相關課題的深入討論和可能的擴充套件的研究文獻。
　　致學生
　　我們希望本書將激發你對年青，但正在快速發展的資料探勘領域的興趣。我們試圖以清晰的方式提供材料，仔細地解釋所涵蓋的主題。每一章後面都附有一個小結，總結要點。全書包含了許多圖和解釋，以便使本書更加有趣和便於閱讀。儘管本書是作為教材編寫的，但是我們也試圖把它組織成一本有用的參考書或手冊，以有助於你今後在資料探勘方面進行深入研究和求職。
　　為閱讀本書，你需要知道什麼？
　　你應當具有關於統計學、資料庫系統和機器學習的概念和術語方面的知識。然而，我們盡力提供這些基礎知識的足夠背景，以便在讀者對這些領域不太熟悉或者記憶有些淡忘時，也能夠理解本書的討論。
　　你應當具有一些程式設計經驗。特別是你應當能夠閱讀虛擬碼，能夠理解像多維陣列這樣的簡單資料結構。
　　致專業人員
　　本書旨在涵蓋資料探勘領域的廣泛主題。因此，本書是關於該主題的一本優秀手冊。由於每一章的編寫都儘可能獨立，所以讀者可以關注自己最感興趣的課題。希望學習資料探勘關鍵思想的應用程式設計師和資訊服務管理人員可以使用本書。對於有興趣使用資料探勘技術解決其業務問題的銀行、保險、醫藥和零售業的資料分析人員，本書也是有用的。此外，本書也可以作為資料探勘領域的全面綜述，有助於研究人員提升資料探勘技巧，擴充套件資料探勘的應用範圍。
　　本書所提供的技術和演算法是實用的，介紹的演算法適合於發現隱藏在大型、現實資料集中的模式和知識，而不是挑選在小型“玩具”資料庫上執行良好的演算法。本書提供的每個演算法都用虛擬碼解釋。虛擬碼類似於程式設計語言C，但也精心加以策劃，使得不熟悉C或C++的程式設計師易於理解。如果你想實現演算法，你會發現將我們的虛擬碼轉換成選定的程式設計語言程式是一項非常簡單的任務。
　　本書資源網站
　　本書網站的地址是~hanj/bk3，另一個是Morgan Kaufmann出版社的網站。這些網站為本書的讀者和對資料探勘感興趣的人提供了一些附加材料，資源包括：
　　每章的幻燈片。提供了用微軟的PowerPoint製作的每章教案。
　　高階資料探勘的配套章節。本書第2版的第8～10章涵蓋了挖掘複雜的資料型別，這超出了本書的主題，對這些高階主題感興趣的讀者可從網站上獲取。
　　教師手冊。本書習題的完整答案透過出版社的網站只向教師提供。
　　課程提綱和教學計劃。使用本書和幻燈片用於資料探勘導論課程和高階教程的本科生和研究生，可以獲取這些資源。
　　帶超連結的輔助閱讀文獻列表。補充讀物的原創性文章按章組織。
　　到資料探勘資料集和軟體的連結。我們將提供到資料探勘資料集和某些包含有趣的資料探勘軟體包的站點的連結，如到伊利諾伊大學厄巴納-尚佩恩分校IlliMine的連結()。
　　作業、考試和課程設計樣本。一組作業、考試和課程設計樣本將在出版社的網站上向教師提供。
　　本書的插圖。這可能有助於你製作自己的課堂教學幻燈片。
　　本書目錄。PDF格式。
　　本書不同印次的勘誤表。歡迎讀者指出本書中的錯誤。一旦錯誤被證實，我們將更新勘誤表，並對你的貢獻致謝。
　　評論或建議請發往hanj@cs.uiuc.edu。我們很高興聽到你的建議。
　　致謝Data Mining：Concepts and Techniques，Third Edition
　　第3版致謝
　　我們向UIUC資料探勘小組以前和現在的所有成員、伊利諾伊大學厄巴納-尚佩恩分校電腦科學系的資料與資訊系統實驗室(DAIS)的教師和學生以及許多朋友和同事表達我們的誠摯謝意，他們始終不渝的支援使得我們在這一版的工作中受益匪淺。我們還希望感謝UIUC 2010—2011學年CS412和CS512課程的學生，他們仔細地通讀了本書的初稿，找出了許多錯誤，提出了各種改進意見。
　　我們還希望感謝Morgan Kaufmann出版社的發行人David Bevans和Rick Adams，感謝他們在我們寫作本書時所表現出的熱情、耐心和支援。我們感激該書的專案經理Marilyn Rash和她的團隊，他們使得我們按期完稿。
　　我們對所有的評論者不勝感激，感謝他們的無價反饋。此外，我們感謝美國國家科學基金會、NASA、美國空軍科學研究辦公室、美國軍事研究實驗室、加拿大自然科學與工程研究委員會（NSERC），以及IBM研究院、微軟研究院、Google、雅虎研究院、波音、HP實驗室和其他業界實驗室，感謝他們在研究基金、合同和贈予方面對我們的研究的支援。這些研究加深了我們對本書所討論課題的理解。最後，我們感謝我們的家人，感謝他們對該專案的全身心支援。
　　第2版致謝
　　我們向UIUC資料探勘小組以前和現在的所有成員、伊利諾伊大學厄巴納-尚佩恩分校電腦科學系的資料與資訊系統實驗室(DAIS)的教師和學生以及許多朋友和同事表示感謝，他們始終不渝的支援使得我們在第2版的工作中受益匪淺。這些人包括：Gul Agha,Rakesh Agrawal,Loretta Auvil,Peter Bajcsy,Geneva Belford,Deng Cai,Y.Dora Cai,Roy Cambell,Kevin C.-C.Chang,Surajit Chaudhuri,Chen Chen,Yixin Chen,Yuguo Chen,Hong Cheng,David Cheung,Shengnan Cong,Gerald DeJong,AnHai Doan,Guozhu Dong,Charios Ermopoulos,Martin Ester,Christos Faloutsos,Wei Fan,Jack C.Feng,Ada Fu,Michael Garland,Johannes Gehrke,Hector Gonzalez,Mehdi Harandi,Thomas Huang,Wen Jin,Chulyun Kim,Sangkyum Kim,Won Kim,Won-Young Kim,David Kuck,Young-Koo Lee,Harris Lewin,Xiaolei Li,Yifan Li,Chao Liu,Han Liu,Huan Liu,Hongyan Liu,Lei Liu,Ying Lu,Klara Nahrstedt,David Padua,Jian Pei,Lenny Pitt,Daniel Reed,Dan Roth,Bruce Schatz,Zheng Shao,Marc Snir,Zhaohui Tang,Bhavani M.Thuraisingham,Josep Torrellas,Peter Tzvetkov,Benjamin W.Wah,Haixun Wang,Jianyong Wang,Ke Wang,Muyuan Wang,Wei Wang,Michael Welge,Marianne Winslett,Ouri Wolfson,Andrew Wu,Tianyi Wu,Dong Xin,Xifeng Yan,Jiong Yang,Xiaoxin Yin,Hwanjo Yu,Jeffrey X.Yu,Philip S.Yu,Maria Zemankova,ChengXiang Zhai,Yuanyuan Zhou，Wei Zou。
　　Deng Cai和ChengXiang Zhai對文字挖掘和Web挖掘兩節，Xifeng Yan對圖挖掘一節，Xiaoxin Yin對多重關係挖掘一節做出了貢獻。Hong Cheng,Charios Ermopoulos,Hector Gonzalez,David J.Hill,Chulyun Kim,Sangkyum Kim,Chao Liu,Hongyan Liu,Kasif Manzoor,Tianyi Wu,Xifeng Yan，Xiaoxin Yin校閱了手稿的部分章節。
　　我們還希望感謝Morgan Kaufmann出版社的發行人Diane Cerra，感謝她在本書寫作期間的熱情、耐心和支援。我們感激該書的專案經理Alan Rose，感謝他不知疲倦和及時地與我們聯絡，安排出版過程的每個細節。我們對所有的評論者不勝感激，感謝他們的無價反饋。最後，我們感謝我們的家人，感謝他們對該專案的全身心支援。
　　第1版致謝
　　我們希望向曾經或正與我們一道從事資料探勘相關研究和DBMiner專案，或者在資料探勘方面向我們提供各種支援的所有人表示衷心感謝。這些人包括：Rakesh Agrawal,Stella Atkins,Yvan Bedard,Binay Bhattacharya,(Yandong)Dora Cai,Nick Cercone,Surajit Chaudhuri,Sonny H.S.Chee,Jianping Chen,Ming-Syan Chen,Qing Chen,Qiming Chen,Shan Cheng,David Cheung,Shi Cong,Son Dao,Umeshwar Dayal,James Delgrande,Guozhu Dong,Carole Edwards,Max Egenhofer,Martin Ester,Usama Fayyad,Ling Feng,Ada Fu,Yongjian Fu,Daphne Gelbart,Randy Goebel,Jim Gray,Robert Grossman,Wan Gong,Yike Guo,Eli Hagen,Howard Hamilton,Jing He,Larry Henschen,Jean Hou,Mei-Chun Hsu,Kan Hu,Haiming Huang,Yue Huang,Julia Itskevitch,Wen Jin,Tiko Kameda,Hiroyuki Kawano,Rizwan Kheraj,Eddie Kim,Won Kim,Krzysztof Koperski,Hans-Peter Kriegel,Vipin Kumar,Laks V.S.Lakshmanan,Joyce Man Lam,James Lau,Deyi Li,George(Wenmin)Li,Jin Li,Ze-Nian Li,Nancy Liao,Gang Liu,Junqiang Liu,Ling Liu,Alan(Yijun)Lu,Hongjun Lu,Tong Lu,Wei Lu,Xuebin Lu,Wo-Shun Luk,Heikki Mannila,Runying Mao,Abhay Mehta,Gabor Melli,Alberto Mendelzon,Tim Merrett,Harvey Miller,Drew Miners,Behzad Mortazavi-Asl,Richard Muntz,Raymond T.Ng,Vicent Ng,Shojiro Nishio,Beng-Chin Ooi,Tamer Ozsu,Jian Pei,Gregory Piatetsky-Shapiro,Helen Pinto,Fred Popowich,Amynmohamed Rajan,Peter Scheuermann,Shashi Shekhar,Wei-Min Shen,Avi Silberschatz,Evangelos Simoudis,Nebojsa Stefanovic,Yin Jenny Tam,Simon Tang,Zhaohui Tang,Dick Tsur,Anthony K.H.Tung,Ke Wang,Wei Wang,Zhaoxia Wang,Tony Wind,Lara Winstone,Ju Wu,Betty(Bin)Xia,Cindy M.Xin,Xiaowei Xu,Qiang Yang,Yiwen Yin,Clement Yu,Jeffrey Yu,Philip S.Yu,Osmar R.Zaiane,Carlo Zaniolo,Shuhua Zhang,Zhong Zhang,Yvonne Zheng,Xiaofang Zhou，Hua Zhu。
　　我們還要感謝Jean Hou,Helen Pinto,Lara Winstone，Hua Zhu，感謝他們幫助繪製本書的一些草圖；感謝Eugene Belchev，感謝他小心地校對了每一章。
　　我們還希望感謝Morgan Kaufmann出版社的執行總編輯Diane Cerra，感謝她在本書寫作期間的熱情、耐心和支援；感謝本書的責任印製Howard Severson和他的同事，感謝他們盡職盡責的努力，使本書順利出版。我們對所有的評論者不勝感激，感謝他們的無價反饋。最後，我們感謝我們的家人，感謝他們對該專案的全身心支援。

序言

　　中文版序Data Mining：Concepts and Techniques，Third Edition
　　We are pleased to see that our third edition has been translated into Chinese by Professor Fan and Meng.The first two editions were translated by them several years ago and have been well received among Chinese readers.In recent years，we have witnessed tremendous progress in the field of data mining research and applications internationally.As a promising new technology，data mining has attracted tremendous interest in the Far East as well.Numerous international and regional conferences on data mining and applications have appeared or held in this region.Many Chinese researchers have been playing an active role，contributing in both research and applications to the advances of this young field.
　　In this third edition，we have carefully selected and tailored the technical materials to be covered for the courses on data mining at both the undergraduate level and the first-year graduate level.We have updated and enhanced the existing chapters substantially with many new topics.Thus，we expect the publication of this edition in Chinese will help Chinese readers to learn and master the latest technology and put them into promising new applications.
　　With best regards,
　　（非常高興地看到本書的第3版由範明和孟小峰教授翻譯成中文。幾年前，他們翻譯了本書的前兩版並被中文讀者廣泛接受。近年來，我們見證了資料探勘研究和應用領域在世界範圍內的巨大進展。作為一種具有良好發展勢頭的新技術，資料探勘在遠東也引起了極大興趣。許多國際或地區性的資料探勘和應用會議已經在該地區出現或召開。許多中國的研究者一直起著積極作用，為推動這個年輕領域的研究和應用做出了貢獻。
　　在第3版中，我們對所包含的技術內容進行了精心挑選和剪裁，以便用於本科生和一年級研究生的“資料探勘”課程。我們用許多新的主題，大幅度地更新和加強了已有的章節。因而，我們期望這個中文版將幫助中文讀者學習和掌握這些最新技術，並將它們用於有希望的新應用。
　　謹致良好祝願！）
　　Jiawei Han，Micheline Kamber，and Jian Pei
　　June 2012
　　第3版序Data Mining：Concepts and Techniques，Third Edition
　　分析大量資料是必要的。甚至像“super crunchers”（超級電腦）這樣流行的科技書也給出了從大量資料發現和得到直覺知識的非常好的事例。每個企業都從收集和分析資料中獲益：醫院可以從患者記錄中識別趨勢和異常，搜尋引擎可以進行更好的秩評定和廣告投放，環境和公共衛生部門可以識別資料中的模式和異常。這樣的例子還有很多，如電腦保安和計算網路入侵檢測、家用電器的能源消耗、生物資訊學和藥物資料的模式分析、財經和商務智慧資料、識別部落格中的趨勢、唧喳（Twitter）等，不一而足。與資料感測器一樣，儲存裝置價格越來越低，因此收集和儲存資料比以前更加容易。
　　於是，問題變成如何分析資料。這恰是第3版的關注點。Jiawei、Micheline、Jian的教材全景式地討論了資料探勘的所有相關方法，從經典的分類和聚類主題，到資料庫方法（例如，關聯規則和資料立方體），到更新和更高階的主題（例如，SVD/PCA、小波、支援向量機）。
　　對於初學者來說，書中的闡述極其容易理解，對於高階讀者也是如此。本書首先介紹基本概念，更高階的內容在隨後的章節中。書中還使用了一些修辭疑問，這樣做非常有助於吸引讀者注意力。
　　我們已經使用前兩版作為卡內基-梅隆大學資料探勘課程的教材，並且準備繼續使用第3版。新版內容有顯著增加：值得注意的是，超過100篇引文引用2006年以來的工作，關注更近的研究，如圖和社會網路、感測器網路，以及離群點檢測。對於視覺化，本書新增了一節；離群點檢測擴充為一整章；而有些章被分開，以便介紹高階方法。例如，top-k模式等模式挖掘以及雙聚類和圖聚類。
　　總之，這是一本關於經典和現代資料探勘方法的優秀專著，它不僅是一本理想的教材，而且也是一本理想的參考書。
　　Christos Faloutsos
　　卡內基-梅隆大學
　　第2版序Data Mining：Concepts and Techniques，Third Edition
　　我們被資料（科學資料、醫療資料、人口統計資料、金融資料和銷售資料）所淹沒。人們沒有時間檢視這些資料。人們的關注已經轉到可貴的應付手段上。因此，我們必須找到有效方法，自動地分析資料、自動地對資料分類、自動地對資料彙總、自動地發現和描述資料中的趨勢、自動地標記異常。這是資料庫研究最活躍、最令人激動的領域之一。統計學、視覺化、人工智慧和機器學習方面的研究人員正在為該領域做出貢獻。由於該領域非常廣闊，很難把握它過去幾十年的非凡進展。
　　六年前，Jiawei Han和Micheline Kamber的原創性教科書將資料探勘的內容組織在一起並呈現給讀者。它預示了資料探勘領域的創新黃金時代的到來。他們的書的新版反映了該領域的進展，一半以上的參考文獻和歷史註釋都涉及當前的研究。該領域已經成熟，出現了許多新的、改進的演算法；該領域已經拓寬，包含了更多資料型別，如流、序列、圖、時間序列、地理空間、音訊、影像和影片。我們不僅可以肯定這個黃金時代尚未結束（資料探勘研究和商業興趣正在繼續增長），而且，這本資料探勘的現代著作的面世是我們所慶幸的。

.　　本書首先提供資料庫和資料探勘概念的簡略介紹，特別強調資料分析。然後，逐章介紹分類、預測、關聯和聚類等基礎概念和技術。這些主題輔以例項，對每類問題均提供代表性演算法，並對每種技術的應用給出注重實效的規則。這種蘇格拉底式的表達風格具有很好的可讀性，並且內容豐富。我已透過閱讀第1版學到了許多知識，並且在閱讀第2版時再次受益並更新了知識。
　　Jiawei Han和Micheline Kamber在資料探勘研究方面一直處於領先地位。這是一本他們用於培養自己的學生，以加快該領域發展的教材。該領域發展非常迅速，本書提供了一條學習該領域基本思想和了解該領域現狀的快捷之路。我認為本書內容豐富、刺激，相信讀者也會有同樣的感觸。
　　Jim Gray
　　Microsoft Research
　　美國加利福尼亞舊金山

《資料探勘：概念與技術(原書第3版)》
出版者的話
中文版序
譯者序
譯者簡介
第3版序
第2版序
前言
致謝
作者簡介
第1章引論1
1.1為什麼進行資料探勘1
1.1.1邁向資訊時代1
1.1.2資料探勘是資訊科技的進化2
1.2什麼是資料探勘4
1.3可以挖掘什麼型別的資料6
1.3.1資料庫資料6
1.3.2資料倉儲7
1.3.3事務資料9
1.3.4其他型別的資料9

.1.4可以挖掘什麼型別的模式10
1.4.1類/概念描述：特徵化與區分10
1.4.2挖掘頻繁模式、關聯和相關性11
1.4.3用於預測分析的分類與迴歸12
1.4.4聚類分析13
1.4.5離群點分析14
1.4.6所有模式都是有趣的嗎14
1.5使用什麼技術15
1.5.1統計學15
1.5.2機器學習16
1.5.3資料庫系統與資料倉儲17
1.5.4資訊檢索17
1.6面向什麼型別的應用18
1.6.1商務智慧18
1.6.2web搜尋引擎18
1.7資料探勘的主要問題19
1.7.1挖掘方法19
1.7.2使用者介面20
1.7.3有效性和可伸縮性21
1.7.4資料庫型別的多樣性21
1.7.5資料探勘與社會21
1.8小結22
1.9習題23
1.10文獻註釋23
第2章認識資料26
2.1資料物件與屬性型別26
2.1.1什麼是屬性27
2.1.2標稱屬性27
2.1.3二元屬性27
2.1.4序數屬性28
2.1.5數值屬性28
2.1.6離散屬性與連續屬性29
2.2資料的基本統計描述29
2.2.1中心趨勢度量：均值、中位數和眾數30
2.2.2度量資料散佈：極差、四分位數、方差、標準差和四分位數極差32
2.2.3資料的基本統計描述的圖形顯示34
2.3資料視覺化37
2.3.1基於畫素的視覺化技術37
2.3.2幾何投影視覺化技術38
2.3.3基於圖符的視覺化技術40
2.3.4層次視覺化技術42
2.3.5視覺化複雜物件和關係42
2.4度量資料的相似性和相異性44
2.4.1資料矩陣與相異性矩陣45
2.4.2標稱屬性的鄰近性度量46
2.4.3二元屬性的鄰近性度量46
2.4.4數值屬性的相異性：閔可夫斯基距離48
2.4.5序數屬性的鄰近性度量49
2.4.6混合型別屬性的相異性50
2.4.7餘弦相似性51
2.5小結52
2.6習題53
2.7文獻註釋54
第3章資料預處理55
3.1資料預處理：概述55
3.1.1資料質量：為什麼要對資料預處理55
3.1.2資料預處理的主要任務56
3.2資料清理58
3.2.1缺失值58
3.2.2噪聲資料59
3.2.3資料清理作為一個過程60
3.3資料整合61
3.3.1實體識別問題62
3.3.2冗餘和相關分析62
3.3.3元組重複65
3.3.4資料值衝突的檢測與處理65
3.4資料歸約65
3.4.1資料歸約策略概述66
3.4.2小波變換66
3.4.3主成分分析67
3.4.4屬性子集選擇68
3.4.5迴歸和對數線性模型：引數化資料歸約69
3.4.6直方圖70
3.4.7聚類71
3.4.8抽樣71
3.4.9資料立方體聚集72
3.5資料變換與資料離散化73
3.5.1資料變換策略概述73
3.5.2透過規範化變換資料74
3.5.3透過分箱離散化76
3.5.4透過直方圖分析離散化76
3.5.5透過聚類、決策樹和相關分析離散化76
3.5.6標稱資料的概念分層產生77
3.6小結79
3.7習題79
3.8文獻註釋80
第4章資料倉儲與聯機分析處理82
4.1資料倉儲：基本概念82
4.1.1什麼是資料倉儲82
4.1.2運算元據庫系統與資料倉儲的區別84
4.1.3為什麼需要分離的資料倉儲85
4.1.4資料倉儲：一種多層體系結構85
4.1.5資料倉儲模型：企業倉庫、資料集市和虛擬倉庫87
4.1.6資料提取、變換和裝入88
4.1.7後設資料庫88
4.2資料倉儲建模：資料立方體與olap89
4.2.1資料立方體：一種多維資料模型89
4.2.2星形、雪花形和事實星座：多維資料模型的模式91
4.2.3維：概念分層的作用94
4.2.4度量的分類和計算95
4.2.5典型的olap操作96
4.2.6查詢多維資料庫的星網查詢模型98
4.3資料倉儲的設計與使用99
4.3.1資料倉儲的設計的商務分析框架99
4.3.2資料倉儲的設計過程100
4.3.3資料倉儲用於資訊處理101
4.3.4從聯機分析處理到多維資料探勘102
4.4資料倉儲的實現103
4.4.1資料立方體的有效計算：概述103
4.4.2索引olap資料：點陣圖索引和連線索引105
4.4.3olap查詢的有效處理107
4.4.4olap伺服器結構：rolap、molap、holap的比較107
4.5資料泛化：面向屬性的歸納109
4.5.1資料特徵的面向屬性的歸納109
4.5.2面向屬性歸納的有效實現113
4.5.3類比較的面向屬性歸納114
4.6小結116
4.7習題117
4.8文獻註釋119
第5章資料立方體技術121
5.1資料立方體計算：基本概念121
5.1.1立方體物化：完全立方體、冰山立方體、閉立方體和立方體外殼122
5.1.2資料立方體計算的一般策略124
5.2資料立方體計算方法126
5.2.1完全立方體計算的多路陣列聚集126
5.2.2buc：從頂點方體向下計算冰山立方體129
5.2.3star-cubing：使用動態星樹結構計算冰山立方體132
5.2.4為快速高維olap預計算殼片段136
5.3使用探索立方體技術處理高階查詢141
5.3.1抽樣立方體：樣本資料上基於olap的挖掘141
5.3.2排序立方體：top-k查詢的有效計算145
5.4資料立方體空間的多維資料分析147
5.4.1預測立方體：立方體空間的預測挖掘147
5.4.2多特徵立方體：多粒度上的複雜聚集149
5.4.3基於異常的、發現驅動的立方體空間探查149
5.5小結152
5.6習題152
5.7文獻註釋155
第6章挖掘頻繁模式、關聯和相關性:基本概念和方法157
6.1基本概念157
6.1.1購物籃分析：一個誘發例子157
6.1.2頻繁項集、閉項集和關聯規則158
6.2頻繁項集挖掘方法160
6.2.1apriori演算法：透過限制候選產生發現頻繁項集160
6.2.2由頻繁項集產生關聯規則164
6.2.3提高apriori演算法的效率165
6.2.4挖掘頻繁項集的模式增長方法166
6.2.5使用垂直資料格式挖掘頻繁項集169
6.2.6挖掘閉模式和極大模式170
6.3哪些模式是有趣的：模式評估方法171
6.3.1強規則不一定是有趣的172
6.3.2從關聯分析到相關分析172
6.3.3模式評估度量比較173
6.4小結176
6.5習題177
6.6文獻註釋179
第7章高階模式挖掘180
7.1模式挖掘：一個路線圖180
7.2多層、多維空間中的模式挖掘182
7.2.1挖掘多層關聯規則182
7.2.2挖掘多維關聯規則185
7.2.3挖掘量化關聯規則186
7.2.4挖掘稀有模式和負模式188
7.3基於約束的頻繁模式挖掘190
7.3.1關聯規則的元規則制導挖掘190
7.3.2基於約束的模式產生：模式空間剪枝和資料空間剪枝191
7.4挖掘高維資料和巨型模式195
7.5挖掘壓縮或近似模式198
7.5.1透過模式聚類挖掘壓縮模式199
7.5.2提取感知冗餘的top-k模式200
7.6模式探索與應用202
7.6.1頻繁模式的語義註解202
7.6.2模式挖掘的應用205
7.7小結206
7.8習題207
7.9文獻註釋208
第8章分類：基本概念211
8.1基本概念211
8.1.1什麼是分類211
8.1.2分類的一般方法211
8.2決策樹歸納213
8.2.1決策樹歸納214
8.2.2屬性選擇度量217
8.2.3樹剪枝222
8.2.4可伸縮性與決策樹歸納224
8.2.5決策樹歸納的視覺化挖掘225
8.3貝葉斯分類方法226
8.3.1貝葉斯定理227
8.3.2樸素貝葉斯分類227
8.4基於規則的分類230
8.4.1使用if-then規則分類230
8.4.2由決策樹提取規則231
8.4.3使用順序覆蓋演算法的規則歸納232
8.5模型評估與選擇236
8.5.1評估分類器效能的度量236
8.5.2保持方法和隨機二次抽樣240
8.5.3交叉驗證240
8.5.4自助法241
8.5.5使用統計顯著性檢驗選擇模型241
8.5.6基於成本效益和roc曲線比較分類器243
8.6提高分類準確率的技術245
8.6.1組合分類方法簡介245
8.6.2裝袋246
8.6.3提升和adaboost247
8.6.4隨機森林249
8.6.5提高類不平衡資料的分類準確率250
8.7小結251
8.8習題251
8.9文獻註釋253
第9章分類：高階方法255
9.1貝葉斯信念網路255
9.1.1概念和機制255
9.1.2訓練貝葉斯信念網路257
9.2用後向傳播分類258
9.2.1多層前饋神經網路258
9.2.2定義網路拓撲259
9.2.3後向傳播260
9.2.4黑盒內部：後向傳播和可解釋性263
9.3支援向量機265
9.3.1資料線性可分的情況265
9.3.2資料非線性可分的情況268
9.4使用頻繁模式分類270
9.4.1關聯分類270
9.4.2基於有區別力的頻繁模式分類272
9.5惰性學習法(或從近鄰學習）275
9.5.1k-最近鄰分類275
9.5.2基於案例的推理277
9.6其他分類方法277
9.6.1遺傳演算法277
9.6.2粗糙集方法278
9.6.3模糊集方法278
9.7關於分類的其他問題280
9.7.1多類分類280
9.7.2半監督分類281
9.7.3主動學習282
9.7.4遷移學習283
9.8小結284
9.9習題285
9.10文獻註釋286
第10章聚類分析：基本概念和方法288
10.1聚類分析288
10.1.1什麼是聚類分析288
10.1.2對聚類分析的要求289
10.1.3基本聚類方法概述291
10.2劃分方法293
10.2.1k-均值：一種基於形心的技術293
10.2.2k-中心點：一種基於代表物件的技術295
10.3層次方法297
10.3.1凝聚的與分裂的層次聚類298
10.3.2演算法方法的距離度量300
10.3.3birch：使用聚類特徵樹的多階段聚類301
10.3.4chameleon:使用動態建模的多階段層次聚類303
10.3.5機率層次聚類304
10.4基於密度的方法306
10.4.1dbscan:一種基於高密度連通區域的基於密度的聚類307
10.4.2optics：透過點排序識別聚類結構309
10.4.3denclue：基於密度分佈函式的聚類311
10.5基於網格的方法312
10.5.1sting:統計資訊網格312
10.5.2clique：一種類似於apriori的子空間聚類方法314
10.6聚類評估315
10.6.1估計聚類趨勢316
10.6.2確定簇數317
10.6.3測定聚類質量317
10.7小結319
10.8習題320
10.9文獻註釋321
第11章高階聚類分析323
11.1基於機率模型的聚類323
11.1.1模糊簇324
11.1.2基於機率模型的聚類326
11.1.3期望最大化演算法328
11.2聚類高維資料330
11.2.1聚類高維資料：問題、挑戰和主要方法330
11.2.2子空間聚類方法331
11.2.3雙聚類332
11.2.4維歸約方法和譜聚類337
11.3聚類圖和網路資料339
11.3.1應用與挑戰339
11.3.2相似性度量340
11.3.3圖聚類方法343
11.4具有約束的聚類345
11.4.1約束的分類345
11.4.2具有約束的聚類方法347
11.5小結349
11.6習題349
11.7文獻註釋350
第12章離群點檢測351
12.1離群點和離群點分析351
12.1.1什麼是離群點351
12.1.2離群點的型別352
12.1.3離群點檢測的挑戰354
12.2離群點檢測方法354
12.2.1監督、半監督和無監督方法355
12.2.2統計方法、基於鄰近性的方法和基於聚類的方法356
12.3統計學方法357
12.3.1引數方法357
12.3.2非引數方法360
12.4基於鄰近性的方法361
12.4.1基於距離的離群點檢測和巢狀迴圈方法361
12.4.2基於網格的方法363
12.4.3基於密度的離群點檢測364
12.5基於聚類的方法366
12.6基於分類的方法368
12.7挖掘情境離群點和集體離群點369
12.7.1把情境離群點檢測轉換成傳統的離群點檢測369
12.7.2關於情境對正常行為建模370
12.7.3挖掘集體離群點371
12.8高維資料中的離群點檢測371
12.8.1擴充的傳統離群點檢測372
12.8.2發現子空間中的離群點373
12.8.3高維離群點建模373
12.9小結374
12.10習題375
12.11文獻註釋375
第13章資料探勘的發展趨勢和研究前沿377
13.1挖掘複雜的資料型別377
13.1.1挖掘序列資料：時間序列、符號序列和生物學序列377
13.1.2挖掘圖和網路381
13.1.3挖掘其他型別的資料383
13.2資料探勘的其他方法385
13.2.1統計學資料探勘385
13.2.2關於資料探勘基礎的觀點386
13.2.3可視和聽覺資料探勘387
13.3資料探勘應用391
13.3.1金融資料分析的資料探勘391
13.3.2零售和電信業的資料探勘392
13.3.3科學與工程資料探勘393
13.3.4入侵檢測和預防資料探勘395
13.3.5資料探勘與推薦系統396
13.4資料探勘與社會397
13.4.1普適的和無形的資料探勘397
13.4.2資料探勘的隱私、安全和社會影響399
13.5資料探勘的發展趨勢400
13.6小結402
13.7習題402
13.8文獻註釋403
參考文獻406
索引435

資料探勘：概念與技術(原書第3版)

內容簡介

前言

序言

目錄

相關文章