資料探勘與預測分析(第2版)

qinghuawenkang發表於2018-10-25


大資料應用與技術叢書
資料探勘與預測分析
(
2 )
[ ] Daniel T. Larose
Chantal D. Larose

王念濱 宋敏 裴大茗 譯
北 京
Daniel T. Larose, Chantal D. Larose
Data Mining and Predictive Analytics, Second Edition
EISBN:978-1-118-11619-7
Copyright © 2015 by John Wiley & Sons, Inc.
All Rights Reserved. This translation published under license.
本書中文簡體字版由 Wiley Publishing, Inc. 授權清華大學出版社出版。未經出版者書面許可,不得以任何
方式複製或抄襲本書內容。
北京市版權局著作權合同登記號 圖字: 01-2015-5032
Copies of this book sold without a Wiley sticker on the cover are unauthorized and illegal.
本書封面貼有 Wiley 公司防偽標籤,無標籤者不得銷售。
版權所有,侵權必究。侵權舉報電話:010-62782989 13701121933
圖書在版編目(CIP)資料
資料探勘與預測分析:第 2 版 / (美) 丹尼爾·T.拉羅斯 (Daniel T.Larose) 等著;王念濱,宋敏,
裴大茗 譯. —北京:清華大學出版社,2017
(2018.4 重印)
(大資料應用與技術叢書)
書名原文:Data Mining and Predictive Analytics, Second Edition
ISBN 978-7-302-45987-3
Ⅰ. ①數… Ⅱ. ①丹… ②王… ③宋… ④裴… Ⅲ.①資料採集 Ⅳ. ①TP274
中國版本圖書館 CIP 資料核字(2016)第 312858 號
責任編輯: 王 軍 於 平
封面設計: 孔祥峰
版式設計: 牛靜敏
責任校對: 牛豔敏
責任印製: 李紅英
出版發行: 清華大學出版社
網 址:
地 址: 北京清華大學學研大廈 A 座 郵 編: 100084
社 總 機: 010-62770175 郵 購: 010-62786544
投稿與讀者服務: 010-62776969,c-service@tup.tsinghua.edu.cn
質 量 反 饋: 010-62772015,zhiliang@tup.tsinghua.edu.cn
印 裝 者 :清華大學印刷廠
經 銷 :全國新華書店
開 本 :185mm×260mm 印 張 :47 字 數 :1144 千字
版 次 :2017 年 2 月第 1 版 印 次 :2018 年 4 月第 3 次印刷
印 數 : ~
定 價 :128.00 元
—————————————————————————————————————————————
產品編號:064482-02

譯 者 序
《資料探勘與預測分析(第 2 版)》一書從解決現實世界的問題出發,介紹了當前被廣
泛應用於現實世界資料集合中的資料探勘和預測分析技術。本書對資料探勘與預測分析的
講解是以資料準備、統計分析、分類、關聯規則、強化模型效能、案例研究為線索,根據
技術的適用情況,結合相應的案例開展研究工作,幫助讀者瞭解並掌握各種演算法的操作和
細微差異,讓讀者真正理解演算法思想和適用環境。
本書提出的方法和技術全面、深入,幾乎涵蓋了當前應用中常見的各類挖掘與分析方
法。對方法的介紹從概念、演算法、評價等部分著手,深入淺出地加以介紹。在介紹方法的
章節中增加了 R 語言開發園地,幫助讀者利用 R 語言開展實際設計和開發工作,獲得章節
中涉及內容的結果,便於讀者掌握所學內容。
本書的第Ⅰ、Ⅳ、Ⅶ部分由王念濱翻譯,第Ⅱ、Ⅲ部分由裴大茗翻譯,第Ⅴ、Ⅵ部分
由宋敏翻譯,王紅濱負責 R 語言開發園地的翻譯工作,周連科負責各章練習的翻譯工作,
博士研究生王瑛琦、何鳴、宋奎勇負責全書圖表及附錄的翻譯工作。另外,碩士研究生孫
靜、李絲然等參加了本書的校對工作,在此一併致謝。
譯者在翻譯此書的過程中發現,資料探勘與預測分析領域的許多術語國內的專家們尚
未達成共識,因此在翻譯過程中,主要參考了網際網路釋義。由於本書體量龐大,不少演算法
的細微之處譯者尚未開展深入研究,翻譯中的錯誤和不當之處在所難免,懇請讀者批評
指正。
譯 者

致 謝
致謝——Daniel
首先我要感謝我的導師,傑出的統計學教授、康涅狄格大學文理學院副院長 Dipak K.
Dey 博士,以及韋斯特菲爾德州立大學數學系統計學教授 John Judge 博士。我將終生感謝
你們對我的教誨。我還要感謝我在中央康涅狄格州立大學資料探勘專案組的同事:Chun Jin
博士、Daniel S. Miller 博士、Roger Bilisoly 博士、Darius Dziuda 博士以及 Krishna Saha 博
士。感謝我的女兒 Chantal,感謝我的孿生子 Tristan Spring 及 Ravel Renaissance,感謝你們
讓我體驗到生活的真諦。
Daniel T. Larose 博士
中央康涅狄格州立大學,資料探勘及統計學的教授
致謝——Chantal
首先我要感謝我的博士生導師、康涅狄格大學統計系的傑出教授 Dipak Dey 博士和副
教授 Ofer Harel 博士。他們的洞察力及理解力都深深體現在我們令人激動的研究專案及我
的博士論文
Model-Based Clustering of Incomplete Data (基於模型的不完整資料聚類)中。感
謝我的父親 Daniel,將我帶入值得一生探究的資料分析領域,感謝我的母親 Debra,感謝
她對統計學的關注。最後,感謝我的兄弟姐妹們:Ravel 和 Tristan,感謝他們的洞察力、
音樂及友誼。
Chantal D. Larose 碩士
康涅狄格大學統計系

前 言
什麼是資料探勘?什麼是預測分析
資料探勘是從大型資料集中發現有用的模式和趨勢的過程。
預測分析是從大型資料集中抽取資訊以便對未來的情況做出預測和估計的過程。
由 Daniel Larose 和 Chantal Larose 合著的《資料探勘與預測分析(第 2 版)》一書能夠
確保讀者成為這一前沿且大有前途的領域的專家。
為什麼需要本書
根據 MarketsandMarkets 研究公司的調查,從 2013 年~2018 年,全球大資料市場有望
以每年 26%的速度增長,將從 2013 年的 148.7 億美元增加到 2018 年的 463.4 億美元
1 。世
界範圍內的公司和團體正在學習如何應用資料探勘和預測分析以增加利潤。尚未應用資料
挖掘和預測分析的公司將會在 21 世紀經濟的全球競爭中落伍。
在大多數領域中,人類都被資料所淹沒。遺憾的是,這些花費龐大成本收集得到的數
據多數都被遺棄在資料倉儲中。問題是,缺乏足夠的、受過良好訓練的、具備將這些資料
轉換為人類需要的知識並就此將分類樹轉換為智慧的分析人員。這也是編寫本書的目的
所在。
McKinsey Global Institute 報告指出
2
公司在利用大資料的技能需求方面將會存在人才短缺現象。從大資料中獲取價值的制
約主要體現在缺乏必要的人才,特別是缺乏那些掌握統計和機器學習專門知識的人才,缺
乏能夠使用從大資料中獲取的見識來運營公司的管理人員和分析人員。我們認為對大資料
世界開展分析工作的職位比目前能夠提供的缺少大約 140 000~190 000 個。此外,我們認
為在美國額外還將需要 150 萬位能夠提出正確問題並能夠有效利用大資料分析結果的管理
和分析人員。
本書試圖幫助解決資料分析人員短缺的問題。
資料探勘得到越來越廣泛的應用,因為它有助於增強公司從其已有的資料集合中發現
有利的模式和趨勢的能力。公司和團體花費了大量的金錢,收集到海量的資料,但是未能
很好地利用隱藏在其資料倉儲中的有價值的和可操作的資訊。然而,隨著資料探勘實踐變
得越來越廣泛,無法應用這些技術的公司將存在落後於市場的危險,將逐漸失去市場份額,
因為他們的競爭對手都在使用資料探勘,從而贏得競爭優勢。
誰將從本書獲益
《資料探勘和預測分析(第 2 版)》一書透過逐步動手解決現實世界的現實問題,介紹
了當前廣泛運用於現實世界資料集合中的資料探勘技術,這一方式將吸引管理人員、首席
資訊官、執行長、首席財務官、資料分析人員、資料庫分析人員以及其他需要了解最
新方法以提高投資回報率的群體的注意。
利用《資料探勘與預測分析(第 2 版)》,你將學習什麼型別的分析能夠從資料中發現最
有益的知識,同時避免進入可能會導致公司投入大量資金而不能帶來相應利益的誤區。你
將透過真正實踐資料探勘和預測分析來學習資料探勘和預測分析。
危險!資料探勘容易被搞砸
能夠開展資料探勘工作的新的現有軟體平臺不斷湧現,這將帶來新的危險。這些應用
處理資料非常方便,強大的資料探勘演算法以黑盒方式嵌入到軟體中,導致濫用情況出現的
比例更高,從而帶來巨大的危險。
簡言之,資料探勘工作不容易做好。將強大的模型應用於海量資料時,一知半解特別
危險。例如,對未經過預處理的資料開展分析工作可能會得出錯誤的結論,或者對資料集
採用不適當的分析方法,又或者模型構建基於完全不正確或似是而非的假設之上。如果進
行了部署,分析中存在的這些錯誤可能會讓你付出昂貴的代價。《資料探勘與預測分析(第
2 版)》一書有助於使你成為一名能夠避免進入這些昂貴陷阱的精明的分析人員。

“白盒”方法
瞭解基本演算法和模型結構
資料探勘和預測分析出現問題的癥結在於盲目採用“黑盒”方法,避免代價昂貴錯誤
的最佳方法是轉而採用“白盒”方法,白盒方法強調要求對軟體中基本演算法和統計模型結
構的瞭解。
《資料探勘與預測分析(第 2 版)》透過如下方式應用白盒方法:
● 明確地揭示為什麼需要運用某一特定方法或演算法。
● 讓讀者瞭解某個演算法或方法是如何工作的,採用例項(小型資料集)解釋,以便讀者
逐步瞭解其中的邏輯關係,從而以白盒方法瞭解方法或演算法的內部工作模式。
● 提供將方法應用於大型、現實世界資料集的例項。
● 透過練習測試讀者對概念和演算法的理解程度。
● 為讀者提供將資料探勘應用於大型資料集的經驗。
演算法概覽
《資料探勘與預測分析(第 2 版)》將利用小型資料集,指引讀者學習各種演算法的操作
和細微差異,讓讀者真正理解演算法的內部工作情況。例如,在第 21 章中,我們將逐步利用
小型資料庫,應用 BIRCH 聚類演算法(BIRCH 是層次聚類的一種方法)學習平衡迭代消減和
聚類,精確地展示 BIRCH 如何針對資料集選擇最佳化的聚類解決方法。正如我們所知,此
類演示是本書針對 BIRCH 演算法的獨特方法。同樣,在第 27 章中,我們將透過使用選擇、
交叉和變異操作運算元,針對小型資料集逐步發現最佳化解決方案,以便讀者能夠更好地理解
所涉及的過程。
將演算法和模型應用到大型資料庫
《資料探勘與預測分析(第 2 版)》提供了大量將資料分析方法應用於大型資料庫的示
例。例如,第 9 章透過利用實際資料庫,解析了營養等級與穀物含量之間的關係。在第 4
章中,我們將主成分分析應用於實際的加利福尼亞州的人口普查資料中。所有資料集均可
從本書網站 中獲得。
章節練習:檢查並確認讀者是否瞭解了本章內容
《資料探勘與預測分析(第 2 版)》一書的各章中包含大約 750 個練習,有助於讀者了
解自己對各章提供材料的理解程度,並從中體驗與數字和資料打交道的樂趣。這些練習包
含概念辨析型別的練習,可幫助讀者進一步梳理清楚資料探勘中某些更具有挑戰性的概念;
利用資料開展工作的練習,幫助讀者將特定資料探勘演算法應用到小型資料集中,從而能夠
逐步實現較好的解決方案。例如,在第 14 章中,我們要求讀者透過該章提供的資料集獲得
最大後驗分類。
動手實踐:透過實際編寫資料探勘演算法學習資料探勘
本書大多數章節為讀者提供了動手實踐分析問題,為讀者提供了運用新學的資料探勘
專業知識,解決大型資料集實際問題的方法。許多人都喜歡邊學邊做,而《資料探勘與預
測分析(第 2 版)》為讀者提供了一個邊學邊做的框架。例如,在第 13 章中,讀者將採用實
際的信用卡審批分類資料集,構建自己的最佳 logistic 迴歸模型,儘可能利用從該章中學習
到的方法,提供對模型強大的、可解釋的支援,包括對獲取的變數及標識變數的解釋。
令人興奮的新主題
《資料探勘與預測分析(第 2 版)》一書還提供大量令人興奮的新主題,主要包括:
● 透過利用資料驅動的誤分類開銷實現成本-效益分析
● 獨立或多元分類模型的成本-效益分析
● 分類模型的圖形化評估方法
● BIRCH 聚類
● 分段模型
● 整合方法:bagging 和 boosting 方法
● 模型投票與趨向平均
● 缺失資料的填補方法
R 語言開發園地
R 語言是一種探索及分析資料集的功能強大的開源語言。使用 R 語言的分析人員可以
利用大量免費的程式包、例程和圖形使用者介面來解決大多數資料分析問題。本書大多數章
節中都為讀者提供 R 語言開發園地,用 R 語言獲得章節中涉及內容的結果,以及部分輸出
的截圖。
附錄:資料彙總與視覺化
一些讀者可能不大容易理解某些統計和圖形化概念,這些概念通常會在統計課程中學
習。《資料探勘與預測分析(第 2 版)》一書提供了介紹常見概念和術語的附錄,為讀者更好

地理解本書的相關材料奠定基礎。
案例研究:分析方法彙總
《資料探勘與預測分析(第 2 版)》最後提供了詳細的案例研究。透過對案例的研究,
讀者能夠了解怎樣將自己從書中學習到的方法融會貫通,以建立可操作的、有益的解決方
案。詳細的案例研究包括在以下 4 章中:
● 第 29 章 案例研究,第 1 部分:業務理解、資料預處理和探索性資料分析。
● 第 30 章 案例研究,第 2 部分:聚類與主成分分析。
● 第 31 章 案例研究,第 3 部分:建模與評估效能和可解釋性。
● 第 32 章 案例研究,第 4 部分:高效能建模與評估
案例研究中包含大量圖形、探索資料分析、預測模型、客戶分析,並提供針對不同用
戶需求的解決方案。採用定製的資料驅動成本效益表的模型評估方法,反映分類誤差的真
正開銷,而不是採用常見的諸如總體誤差率等評估方法。因此,分析人員能夠使用每位客
戶接觸的開銷對模型進行比較工作,給予接觸客戶的數量,預測模型能夠實現多少利潤。
本書組織結構
《資料探勘與預測分析(第 2 版)》一書的組織結構有助於讀者直接發現相關的邏輯。
共設 32 章,包含 8 個主要部分:
● 第Ⅰ部分是資料準備,包含有關資料預處理、探索性資料分析、降維方法等章節。
● 第Ⅱ部分是統計分析,提供開展資料分析工作常見的經典統計方法,包括單變數統
計分析及多元變數統計分析、簡單及多元線性迴歸方法、為構建模型準備資料、
模型構建等章節。
● 第Ⅲ部分是分類,包含 9 章,是本書涉及內容最多的部分:其中包含
k -最近鄰算
法、決策樹、神經元網路、logistic 迴歸、樸素貝葉斯與貝葉斯網路、模型評估技術、
基於資料驅動成本的成本-效益分析、二元及
k 元分類模型、分類模型的圖形化評
估等。
● 第Ⅳ部分是聚類,包含層次聚類和
k- 均值聚類、Kohonen 網路、BIRCH 聚類、度
量簇的優劣等。
● 第Ⅴ部分是關聯規則,本部分僅包含一章內容,涵蓋 A Priori 關聯規則以及廣義規
則歸納。
● 第Ⅵ部分是模型效能強化,提供細分模型、整合方法:bagging 和 boosting、模型投
票與趨向平均等章節。
● 第Ⅶ部分介紹針對預測建模的其他方法,包括缺失資料填補以及遺傳演算法等。

X 資料探勘與預測分析(第 2 版)
● 第Ⅷ部分是案例研究:針對直郵市場的預測響應,包括 4 章,給出如何從直郵市場
營銷活動中獲取最大利潤的完整案例分析方法。
軟體
本書使用的軟體包括:
● IBP SPSS Modeler 資料探勘軟體套件
● R 開放原始碼統計分析軟體
● SAS Enterprise Miner
● SAS 統計分析軟體
● Minitab 統計分析軟體
● Weka 開放原始碼資料探勘軟體
IBM SPSS Modeler 是資料探勘領域應用最廣泛的資料探勘軟體套件,該軟體由 SPSS
開發(www-01.ibm.com/software/analytics/spss/products/modeler/),本書採用了其基本軟體。
SAS Enterprise Miner 比 IBM Modeler 功能更強大,但學習該軟體比較困難。SPSS 可以獲
得免費試用版(透過 Google 搜尋“spss”即可下載)。Minitab 是簡單易用的統計軟體包,可
以在該公司提供的網站 下載試用版。
Weka:開源軟體
Weka 機器學習平臺是一種基於 GNU 通用公共許可證釋出的開源軟體,它包括實現多
數資料探勘任務所需要的工具集合。《資料探勘與預測分析(第 2 版)》利用 Weka 3.6 開發動
手實踐、一步一步例項教程等,該軟體可從本書的相關網站
獲得。讀者可以使用 Weka 執行如下型別的分析:logistic 迴歸(見第 13 章)、樸素貝葉斯分
類(見第 14 章)、貝葉斯網路分類(見第 14 章)、遺傳演算法(見第 27 章)。有關 Weka 的更多信
息可參考 。作者非常感謝 James Steck 提供了大量的 Weka 實
例和練習。James Steck(jame_steck@comcast.net)是 2005 年康涅狄格州州立中央大學最早獲
得資料探勘學科碩士學位的學生之一,也是最早獲得研究生學術研究獎的學生。
本書網站
讀者可以獲得由 Daniel Larose 和 Chantal Larose 撰寫的、Wiley InterScience 出版的數
據挖掘書籍相關材料。透過該網站,或掃描本書封底的二維碼,可以下載本書用到的大多
數資料集,方便讀者動手實踐開發各種本書提到的分析方法和模型。網站還包括勘誤表和
比較完整的資料探勘相關資源,涉及資料集連結、資料探勘研究組連結以及相關的研究論

文等。
然而,本網站真正強大的原因還在於可供講授本書的教師使用,提供的資源包括:
● 所有練習的答案,包括動手實踐分析。
● 各章的 PPT,可方便教學工作。
● 示例資料探勘課程專案,由作者親自編寫,可以在你的課程講授中採用。
● 實際的資料集,可用於課程學習參考。
● 每章所涉及的網路資源。
作為教材的《資料探勘與預測分析(第 2 版)》
《資料探勘與預測分析(第 2 版)》自然適合作為 1 學期或 2 學期課程的課本,2 學期課
程內容可分為資料探勘介紹和中級資料探勘。教師在授課時可獲得如下好處:
● 資料探勘過程介紹。
● “白盒”方法,強調理解基本演算法的結構:
利用玩具資料集講授演算法概覽。
將演算法應用於大型資料集。
超過 300 幅圖、275 張表。
包含 750 道章節練習和動手實踐分析。
● 大量令人興奮的新專題,例如基於資料驅動誤分類開銷的成本-效益分析。
● 詳細的案例研究,有助於融會貫通前 28 章介紹的內容。
● 附錄:資料彙總與視覺化,包含讀者可能比較生疏的統計和圖形方面的概念綜述。
● 對應 Web 網站,提供了上述內容詳細的資源列表。
《資料探勘與預測分析(第 2 版)》可作為本科高年級或研究生課程內容。若先有選修
統計方面的課程更好,但並非必需。讀者不需要具備計算機程式設計經驗或資料庫的專門知識。

目 錄
第Ⅰ部分 資料準備
第 1 章 資料探勘與預測分析概述 ··········· 3
1.1 什麼是資料探勘和預測分析
········· 3
1.2 需求:資料探勘技術人員
············· 4
1.3 資料探勘離不開人的參與
············· 5
1.4 跨行業資料探勘標準過程:
CRISP-DM
······································ 6
1.5 資料探勘的謬誤
····························· 8
1.6 資料探勘能夠完成的任務
············· 9
1.6.1 描述 ........................................... 9
1.6.2 評估 ......................................... 10
1.6.3 預測 ......................................... 11
1.6.4 分類 ......................................... 11
1.6.5 聚類 ......................................... 13
1.6.6 關聯 ......................................... 14
R 語言開發園地
···································· 15
R 參考文獻
············································ 16
練習
························································ 16
第 2 章 資料預處理
······························· 17
2.1 需要預處理資料的原因
··············· 17
2.2 資料清理
······································· 18
2.3 處理缺失資料
······························· 19
2.4 識別錯誤分類
······························· 22
2.5 識別離群值的圖形方法
··············· 22
2.6 中心和散佈度量
··························· 24
2.7 資料變換
······································· 26
2.8 min-max 規範化
··························· 26
2.9 Z-score 標準化
····························· 27
2.10 小數定標規範化
························· 28
2.11 變換為正態資料
························· 28
2.12 識別離群值的數值方法
············· 34
2.13 標誌變數
····································· 35
2.14 將分類變數轉換為數值變數
····· 35
2.15 數值變數分箱
····························· 36
2.16 對分類變數重新劃分類別
········· 37
2.17 新增索引欄位
····························· 37
2.18 刪除無用變數
····························· 38
2.19 可能不應該刪除的變數
············· 38
2.20 刪除重複記錄
····························· 39
2.21 ID 欄位簡述
······························· 39
R 語言開發園地
···································· 39
R 參考文獻
············································ 45
練習
························································ 45
第 3 章 探索性資料分析
······················· 49
3.1 假設檢驗與探索性資料分析
······· 49
3.2 瞭解資料集
··································· 49
3.3 探索分類變數
······························· 52
3.4 探索數值變數
······························· 58
3.5 探索多元關係
······························· 62
3.6 選擇感興趣的資料子集作進一步
研究
·············································· 64
3.7 使用 EDA 發現異常欄位
············· 64
3.8 基於預測值分級
··························· 65
3.9 派生新變數:標誌變數
··············· 67
3.10 派生新變數:數值變數
············· 69
3.11 使用 EDA 探測相關聯的預測
變數
············································ 70
3.12 EDA 概述 ··································· 73
R 語言開發園地
···································· 73
R 參考文獻
············································ 80
練習
······················································· 80
第 4 章 降維方法
·································· 83
4.1 資料探勘中降維的必要性
··········· 83
4.2 主成分分析
··································· 84
4.3 將主成分分析應用於房屋
資料集
·········································· 87
4.4 應提取多少個主成分
··················· 91
4.4.1 特徵值標準 .............................. 91
4.4.2 解釋變異的比例標準 ............... 92
4.4.3 最小共性標準 .......................... 92
4.4.4 坡度圖示準 .............................. 92
4.5 主成分描述
··································· 94
4.6 共性
··············································· 96
4.7 主成分驗證
··································· 97
4.8 因子分析法
··································· 98
4.9 因子分析法在成年人資料集中的
應用
·············································· 99
4.10 因子旋轉
··································· 101
4.11 使用者自定義合成
······················· 104
4.12 使用者自定義合成的示例
··········· 105
R 語言開發園地
·································· 106
R 參考文獻
·········································· 110
練習
······················································ 111
第 5 章 單變數統計分析 ····················· 117
5.1 資料知識發現中的資料探勘
任務
············································ 117
5.2 用於估計和預測的統計方法
····· 117
5.3 統計推理
····································· 118
5.4 我們對評估的確信程度如何
····· 119
5.5 均值的置信區間估計
················· 120
5.6 如何減少誤差範圍
····················· 121
5.7 比例的置信區間估計
················· 122
5.8 均值的假設檢驗
························· 123
5.9 拒絕零假設的證據力度的
評估
············································ 125
5.10 使用置信區間執行假設檢驗
··· 126
5.11 比例的假設檢驗
······················· 127
R 語言開發園地
·································· 128
R 參考文獻
·········································· 129
練習
····················································· 129
第 6 章 多元統計
································ 133
6.1 描述均值差異的兩樣例 t-檢驗
方法
············································ 133
6.2 判斷總體差異的兩樣例
Z-檢驗
········································· 134
6.3 比例均勻性的測試
····················· 135
6.4 多後設資料擬合情況的
卡方檢驗
···································· 137
6.5 方差分析
····································· 138
R 語言開發園地
·································· 141
R 參考文獻
·········································· 143
練習
···················································· 143
第 7 章 資料建模準備
························· 145
7.1 有監督學習與無監督學習
········· 145
7.2 統計方法與資料探勘方法
········· 146
7.3 交叉驗證
····································· 146
7.4 過度擬合
····································· 147
7.5 偏差-方差權衡
··························· 148
7.6 平衡訓練資料集
························· 150
7.7 建立基線效能
····························· 151
R 語言開發園地
·································· 152
R 參考文獻
·········································· 153
練習
···················································· 153
第 8 章 簡單線性迴歸
························· 155
8.1 簡單線性迴歸示例
····················· 155
8.2 外推的危險
································· 161
目 錄 XV
8.3 迴歸有用嗎?係數的確定 ········· 162
8.4 估計標準誤差
····························· 166
8.5 相關係數 r
·································· 167
8.6 簡單線性迴歸的方差分析表
····· 169
8.7 離群點、高槓杆率點與有影響
的觀察點
···································· 170
8.8 迴歸方程概括
····························· 178
8.9 迴歸假設驗證
····························· 179
8.10 迴歸推理
··································· 184
8.11 x 與 y 之間關係的 t-檢驗
········· 185
8.12 迴歸直線斜率的置信區間
······· 187
8.13 相關係數 ρ 的置信區間
··········· 188
8.14 給定均值的置信區間
··············· 190
8.15 給定隨機選擇值的預測區間
···· 191
8.16 獲得線性特性的變換
··············· 194
8.17 博克斯-考克斯變換
················· 199
R 語言開發園地
·································· 199
R 參考文獻
·········································· 205
練習
····················································· 205
第 9 章 多元迴歸與模型構建
·············· 213
9.1 多元迴歸示例
····························· 213
9.2 總體多元迴歸方程
····················· 218
9.3 多元迴歸推理
····························· 219
9.3.1 y 與 x i 之間關係的 t - 檢驗 ....... 219
9.3.2 營養等級與含糖量之間關係
的 t
- 檢驗 ................................ 220
9.3.3 營養等級與纖維含量之間
關係的 t
- 檢驗 ........................ 220
9.3.4 總體迴歸模型顯著性的
F
- 檢驗 ................................... 221
9.3.5 營養等級與含糖量和纖維
含量之間關係的 F
- 檢驗 ........ 222
9.3.6 特定係數 β i 的置信區間 ........ 223
9.3.7 ( 在給定 x 1 , x 2 ,…, x m 的情況下 ) y
的均值的置信區間
................ 223
9.3.8 ( 在給定 x 1 , x 2 ,…, x m 的情況下 )
隨機選擇的 y 值的預測區間 .... 223
9.4 利用指示變數的包含範疇型預測
變數的迴歸
································ 224
9.5 調整 R
2 :懲罰包含無用預測變數
的模型
········································ 230
9.6 序列平方和
································· 231
9.7 多重共線性
································· 233
9.8 變數選擇方法
····························· 239
9.8.1 有偏 F - 檢驗 ........................... 239
9.8.2 前向選擇過程 ........................ 240
9.8.3 反向刪除過程 ........................ 241
9.8.4 逐步選擇過程 ........................ 241
9.8.5 最佳子集過程 ........................ 241
9.8.6 “所有可能子集”過程 ......... 242
9.9 油耗資料集
································· 242
9.10 變數選擇方法的應用
··············· 243
9.10.1 應用於油耗資料集的前向
選擇過程
........................... 244
9.10.2 應用於油耗資料集的後向
刪除過程
........................... 245
9.10.3 應用於油耗資料集的逐步選
擇過程
............................... 246
9.10.4 應用於油耗資料集的最佳子
集過程
............................... 246
9.10.5 Mallows’ C
p 統計量 ............ 247
9.11 將主成分作為預測變數進行
多元迴歸
··································· 251
R 語言開發園地
·································· 255
R 參考文獻
·········································· 265
練習
····················································· 265
第Ⅲ部分 分類
第 10 章 K -最近鄰演算法 ······················· 273
10.1 分類任務
··································· 273
10.2 k-最近鄰演算法
···························· 274
XVI 資料探勘與預測分析(第 2 版)
10.3 距離函式 ··································· 276
10.4 組合函式
··································· 279
10.4.1 簡單權重投票方式 ............ 279
10.4.2 加權投票 ........................... 279
10.5 量化屬性的相關性:軸伸縮
···· 280
10.6 資料庫方面的考慮
··················· 281
10.7 將 k-最近鄰演算法用於評估和
預測
·········································· 281
10.8 k 值的選擇
································ 282
10.9 利用 IBM/SPSS 建模工具應用
k-最近鄰演算法
··························· 283
R 語言開發園地
·································· 284
R 參考文獻
·········································· 286
練習
···················································· 286
第 11 章 決策樹
·································· 289
11.1 決策樹是什麼
··························· 289
11.2 使用決策樹的要求
··················· 291
11.3 分類與迴歸樹
··························· 291
11.4 C4.5 演算法
·································· 297
11.5 決策規則
··································· 302
11.6 比較 C5.0 和 CART 演算法應用
到實際的資料
·························· 303
R 語言開發園地
·································· 306
R 參考文獻
·········································· 307
練習
···················································· 308
第 12 章 神經元網路
··························· 311
12.1 輸入和輸出編碼
······················· 312
12.2 神經元網路用於評估和預測
··· 313
12.3 神經元網路的簡單示例
··········· 314
12.4 sigmoid 啟用函式
····················· 316
12.5 反向傳播
··································· 317
12.6 梯度下降法
······························· 317
12.7 反向傳播規則
··························· 318
12.8 反向傳播示例
··························· 319
12.9 終止條件
··································· 320
12.10 學習率
····································· 321
12.11 動量項
····································· 322
12.12 敏感性分析
····························· 323
12.13 神經元網路建模應用
············· 324
R 語言開發園地
·································· 326
R 參考文獻
·········································· 328
練習
···················································· 328
第 13 章 logistic 迴歸
·························· 331
13.1 logistic 迴歸簡單示例
·············· 331
13.2 最大似然估計
··························· 333
13.3 解釋 logistic 迴歸的輸出
········· 334
13.4 推理:這些預測有顯著性嗎
···· 335
13.5 機率比比率與相對風險
··········· 337
13.6 對二分 logistic 迴歸預測的
解釋
·········································· 339
13.7 對應用於多元預測變數的
logistic 迴歸的解釋
·················· 342
13.8 對應用於連續型預測變數的
logistic 迴歸的解釋
·················· 346
13.9 線性假設
··································· 351
13.10 零單元問題
····························· 353
13.11 多元 logistic 迴歸
··················· 355
13.12 引入高階項處理非線性
········· 359
13.13 logistic 迴歸模型的驗證
········ 366
13.14 WEKA:應用 logistic 迴歸的
實踐分析
································ 370
R 語言開發園地
·································· 374
R 參考文獻
·········································· 380
練習
···················································· 380
第 14 章 樸素貝葉斯與貝葉斯網路
····· 385
14.1 貝葉斯方法
······························· 385
14.2 最大後驗(MAP)分類
··············· 387
14.3 後驗機率比
······························· 391
14.4 資料平衡
··································· 393
14.5 樸素貝葉斯分類
······················· 394
目 錄 XVII
14.6 解釋對數後驗機率比 ··············· 397
14.7 零單元問題
······························· 398
14.8 樸素貝葉斯分類中的數值型
預測變數
·································· 399
14.9 WEKA:使用樸素貝葉斯開展
分析
·········································· 402
14.10 貝葉斯信念網路
····················· 406
14.11 衣物購買示例
························· 407
14.12 利用貝葉斯網路發現機率
····· 409
R 語言開發園地
·································· 413
R 參考文獻
·········································· 417
練習
···················································· 417
第 15 章 模型評估技術
······················· 421
15.1 用於描述任務的模型評估
技術
·········································· 421
15.2 用於評估和預測任務的模型
評估技術
·································· 422
15.3 用於分類任務的模型評估
方法
·········································· 423
15.4 準確率和總誤差率
··················· 425
15.5 靈敏性和特效性
······················· 426
15.6 假正類率和假負類率
··············· 427
15.7 真正類、真負類、假正類、
假負類的比例
·························· 427
15.8 透過誤分類成本調整來反映
現實關注點
······························ 429
15.9 決策成本/效益分析
·················· 430
15.10 提升圖表和增益圖表
············· 431
15.11 整合模型評估與模型建立
····· 434
15.12 結果融合:應用一系列
模型
········································ 435
R 語言開發園地
·································· 436
R 參考文獻
·········································· 436
練習
···················································· 437
第 16 章 基於資料驅動成本的
成本-效益分析
······················ 439
16.1 在行調整條件下的決策
不變性
······································ 439
16.2 正分類標準
······························· 440
16.3 正分類標準的示範
··················· 442
16.4 構建成本矩陣
··························· 444
16.5 在縮放條件下的決策不變性
···· 445
16.6 直接成本和機會成本
··············· 446
16.7 案例研究:基於資料驅動誤
分類成本的成本-效益分析
····· 446
16.8 再平衡作為誤分類成本的
代理
·········································· 450
R 語言開發園地
·································· 452
R 參考文獻
·········································· 455
練習
···················································· 455
第 17 章 三元和
k 元分類模型的成本-
效益分析
······························ 459
17.1 三元目標的分類評估變數
······· 459
17.2 三元分類評估度量在貸款審批
問題中的應用
··························· 462
17.3 三元貸款分類問題的資料驅動
成本-效益分析
························· 466
17.4 比較使用/不使用資料驅動誤分
類成本的 CART 模型
·············· 467
17.5 一般的 k 元目標的分類評估
度量
·········································· 470
17.6 k 元分類中評估度量和資料驅動
誤分類成本的示例
··················· 472
R 語言開發園地
·································· 474
R 參考文獻
·········································· 475
練習
···················································· 475
第 18 章 分類模型的圖形化評估
········ 477
18.1 回顧提升圖表和增益圖表
······· 477
18.2 使用誤分類成本的提升圖表
和增益圖表
······························ 477
XVIII 資料探勘與預測分析(第 2 版)
18.3 響應圖表 ··································· 479
18.4 利潤圖表
··································· 479
18.5 投資回報(ROI)圖表
················· 482
R 語言開發園地
·································· 482
R 參考文獻
·········································· 484
練習
···················································· 484
第Ⅳ部分 聚類
第 19 章 層次聚類和 k -均值聚類 ········ 489
19.1 聚類任務
··································· 489
19.2 層次聚類方法
··························· 491
19.3 單一鏈聚類
······························· 492
19.4 完全鏈聚類
······························· 493
19.5 k-均值聚類
······························· 494
19.6 k-均值聚類實操示例
················ 495
19.7 k-均值演算法執行中 MSB、MSE
和偽-F 的行為
·························· 498
19.8 SAS Enterprise Miner 中 k-均值
演算法的應用
······························ 499
19.9 使用簇成員關係來預測客戶
流失
·········································· 501
R 語言開發園地
·································· 502
R 參考文獻
·········································· 503
練習
···················································· 504
第 20 章 Kohonen 網路
······················ 505
20.1 自組織對映
······························· 505
20.2 Kohonen 網路
··························· 507
20.3 Kohonen 網路學習示例
··········· 508
20.4 簇有效性
··································· 511
20.5 使用 Kohonen 網路進行聚類
應用
·········································· 511
20.6 解釋簇
······································· 512
20.7 將簇成員關係作為下游資料
挖掘模型的輸入
······················ 517
R 語言開發園地
·································· 518
R 參考文獻
·········································· 520
練習
···················································· 520
第 21 章 BIRCH 聚類
························· 521
21.1 BIRCH 聚類的理論基礎
·········· 521
21.2 簇特徵
······································· 522
21.3 簇特徵樹
··································· 523
21.4 階段 1:構建 CF 樹
················· 523
21.5 階段 2:聚類子簇
···················· 525
21.6 BIRCH 聚類示例之階段 1:
構建 CF 樹
································ 525
21.7 BIRCH 聚類示例之階段 2:
聚類子簇
·································· 530
21.8 候選聚類解決方案的評估
······· 530
21.9 案例研究:在銀行貸款資料集
上應用 BIRCH 聚類
················ 531
21.9.1 案例研究第 1 課:對於
任意聚類演算法避免高度
相關的輸入
....................... 532
21.9.2 案例研究第 2 課:不同的
排序可能會導致不同的
簇數目
............................... 535
R 語言開發園地
·································· 537
R 參考文獻
·········································· 538
練習
···················································· 538
第 22 章 度量簇的優劣
······················· 541
22.1 度量簇優劣的基本原理
··········· 541
22.2 輪廓方法
··································· 541
22.3 輪廓值示例
······························· 542
22.4 Iris 資料集的輪廓值分析
········ 544
22.5 偽-F 統計方法
·························· 547
22.6 偽-F 統計示例
·························· 549
22.7 將偽-F 統計應用於 Iris
資料集
······································ 550
22.8 簇驗證
······································· 551
22.9 將簇驗證方法應用於貸款
資料集
······································ 551
R 語言開發園地 ·································· 554
R 參考文獻
·········································· 556
練習
···················································· 557
第Ⅴ部分 關聯規則
第 23 章 關聯規則 ······························ 561
23.1 親和度分析與購物籃分析
······· 561
23.2 支援度、可信度、頻繁項集和
先驗屬性
·································· 564
23.3 先驗演算法工作原理(第 1 部
分)—— 建立頻繁項集
············· 565
23.4 先驗演算法工作原理(第 2 部
分)—— 建立關聯規則
············· 566
23.5 從標誌資料擴充套件到分類資料
···· 569
23.6 資訊理論方法:廣義規則推理
方法
·········································· 570
23.7 關聯規則不易做好
··················· 571
23.8 度量關聯規則可用性的方法
···· 573
23.9 關聯規則是監督學習還是
無監督學習
······························ 574
23.10 區域性模式與全域性模型
············· 574
R 語言開發園地
·································· 575
R 參考文獻
·········································· 575
練習
···················································· 576
第Ⅵ部分 增強模型效能
第 24 章 細分模型 ······························ 581
24.1 細分建模過程
··························· 581
24.2 利用 EDA 識別分段的細分
建模
·········································· 583
24.3 利用聚類方法識別分段的
細分建模
·································· 585
R 語言開發園地
·································· 589
R 參考文獻
·········································· 591
練習
···················································· 591
第 25 章 整合方法:bagging 和
boosting
······························· 593
25.1 使用整合分類模型的理由
······· 593
25.2 偏差、方差與噪聲
··················· 594
25.3 適合採用 bagging 的場合
········ 595
25.4 bagging
······································ 596
25.5 boosting
····································· 599
25.6 使用 IBM/SPSS 建模器應用
bagging 和 boosting
·················· 602
參考文獻
·············································· 603
R 語言開發園地
·································· 604
R 參考文獻
·········································· 605
練習
···················································· 606
第 26 章 模型投票與趨向平均
············ 609
26.1 簡單模型投票
··························· 609
26.2 其他投票方法
··························· 610
26.3 模型投票過程
··························· 611
26.4 模型投票的應用
······················· 612
26.5 什麼是趨向平均
······················· 616
26.6 趨向平均過程
··························· 616
26.7 趨向平均的應用
······················· 618
R 語言開發園地
·································· 619
R 參考文獻
·········································· 621
練習
···················································· 622
第Ⅶ部分 更多主題
第 27 章 遺傳演算法 ······························ 627
27.1 遺傳演算法簡介
··························· 627
27.2 基因演算法的基本框架
··············· 628
27.3 遺傳演算法的簡單示例
··············· 629
27.3.1 1 次迭代 ....................... 629
27.3.2 2 次迭代 ....................... 631
27.4 改進及增強:選擇
··················· 631
27.5 改進及增強:交叉
··················· 633
27.5.1 多點交叉 ······························ 633
27.5.2 通用交叉 ........................... 634
27.6 實值變數的遺傳演算法 ··············· 634
27.6.1 單一算術交叉 .................... 635
27.6.2 簡單算術交叉 .................... 635
27.6.3 完全算術交叉 .................... 635
27.6.4 離散交叉 ........................... 635
27.6.5 正態分佈突變 .................... 635
27.7 利用遺傳演算法訓練神經元
網路
·········································· 636
27.8 WEKA:使用遺傳演算法進行
分析
·········································· 640
R 語言開發園地
·································· 646
R 參考文獻
·········································· 647
練習
···················································· 647
第 28 章 缺失資料的填充
··················· 649
28.1 缺失資料填充的必要性
··········· 649
28.2 缺失資料填充:連續型變數
···· 650
28.3 填充的標準誤差
······················· 653
28.4 缺失值填充:範疇型變數
······· 653
28.5 缺失的處理模式
······················· 654
參考文獻
·············································· 655
R 語言開發園地
·································· 655
R 參考文獻
·········································· 657
練習
···················································· 658
第Ⅷ部分 案例研究:對直郵營
銷的響應預測
第 29 章 案例研究,第 1 部分:業務
理解、資料預處理和探索性
資料分析
································· 661
29.1 資料探勘的跨行業標準
··········· 661
29.2 業務理解階段
··························· 662
29.3 資料理解階段,第一部分:
熟悉資料集
······························ 663
29.4 資料準備階段
··························· 667
29.4.1 消費金額為負值的情況 ..... 667
29.4.2 實現正態性或對稱性的
轉換
................................... 669
29.4.3 標準化 ............................... 671
29.4.4 派生新變數 ....................... 671
29.5 資料理解階段,第二部分:
探索性資料分析
······················· 674
29.5.1 探索預測因子和響應之間
的關係
............................... 674
29.5.2 研究預測因子間的相關性
結構
................................... 679
29.5.3 逆轉換對於解釋的
重要性
............................... 682
第 30 章 案例研究,第 2 部分:聚類與
主成分分析
··························· 685
30.1 資料劃分
··································· 685
30.2 制定主成分
······························· 686
30.3 驗證主成分
······························· 689
30.4 主成分概括
······························· 691
30.5 利用 BIRCH 聚類演算法選擇最優
聚類數
······································ 694
30.6 利用 k 均值聚類演算法選擇最優
聚類數
······································ 695
30.7 k-均值聚類應用
························ 696
30.8 驗證聚類
··································· 697
30.9 聚類概括
··································· 698
第 31 章 案例研究,第 3 部分:建模與
評估效能和可解釋性
············ 699
31.1 選擇效能最佳模型,還是既要
效能又要可解釋性
··················· 699
31.2 建模與評估概述
······················· 700
31.3 利用資料驅動開銷開展損益
分析
·········································· 700
31.4 輸入到模型中的變數
··············· 702
31.5 建立基線模型效能
··················· 703
31.6 利用誤分類開銷的模型
··········· 704
31.7 需要用代理調整誤分類開銷
的模型
······································ 705
31.8 採用投票和趨向平均方法
合併模型
·································· 706
目 錄 XXI
31.9 對利潤最佳模型的解釋 ··········· 707
第 32 章 案例研究,第 4 部分:高效能
建模與評估
·························· 709
32.1 輸入到模型中的變數
··············· 709
32.2 使用誤分類開銷的模型
··········· 710
32.3 需要作為誤分類開銷代理
調整的模型
······························ 710
32.4 使用投票和趨向平均的合併
模型
·········································· 711
32.5 經驗總結
··································· 713
32.6 總結
··········································· 713
附錄 A 資料彙總與視覺化
·················· 715
第Ⅰ部分
數 據 準 備
第 1 章 資料探勘與預測分析概述
第 2 章 資料預處理
第 3 章 探索性資料分析
第 4 章 降維方法

1
資料探勘與預測分析概述
1.1 什麼是資料探勘和預測分析
最近,計算機制造商 Dell 對提高其銷售人員的工作效率非常感興趣。為此,公司利用
資料探勘和預測分析方法分析其潛在客戶資料庫,以發現那些最有可能真正成為其客戶的
人群。透過利用 LinkedIn 及其他能夠提供大量豐富潛在客戶資訊的類似網站,研究潛在客
戶的社會網路行為,Dell 就能為其客戶開發出更具個性化的銷售方式。以上案例是透過挖
掘客戶資料,幫助識別潛在客戶市場行為型別的例項,它基於客戶的個人檔案記錄。這一
工作能獲得什麼樣的效益呢?可以將需要聯絡的預期人群數量減少 50%,只與那些最有可
能成為客戶的人群聯絡,銷售人員的效率和效益提高一倍左右,同時 Dell 的營業額也獲得
了類似的增長
1
美國麻省州政府以預測分析為工具,大大減少了全州的醫療福利詐騙案件。當醫療索
賠發生時,州政府立即將相關資訊實時傳送到預測分析模型,執行異常檢測。據麻省州醫
療福利欺詐中心負責人 Joan Senatore 透露,在投入使用的前 6 個月期間,該系統“發現了
涉及大約兩百萬美元的不應支付的款項,避免了大量欺詐索賠金額的支付”。
2
麥肯錫全球研究所(MGI)報告 3 稱大多數僱員超過 1000 人的美國公司平均有至少 200
1 How Dell Predicts Which Customers Are Most Likely to Buy , by Rachael King, CIO Journal, Wall Street
Journal, December 5, 2012.
2
How MassHealth cut Medicaid fraud with predictive analytics , by Rutrell Yasin, GCN, February 24, 2014.
3
Big data: The next frontier for innovation, competition, and productivity , by James Manyika et al.,
Mckinsey Global Institute, May, 2011. Last accessed March 16, 2014.

TB 的資料儲存。麥肯錫全球研究所認為在世界範圍內,資料產生的總量將以每年 40%的
速度增長,對公司來說,這將帶來有利可圖的機會,它們可以利用其資料減少開銷並增加
利潤。例如,按照 MGI 的報告,能夠最大限度地利用這些“大資料”的零售商可使其營業
額毛利增長 60%以上。
《福布斯》雜誌報告
4 表明,利用資料探勘和預測分析,可發現那些具有最嚴重危險的
充血性心臟衰竭病人。IBM 收集了涉及 350 000 位病人的 3 年資料,包括超過 200 個引數
的資料度量值,如血壓、體重以及處方藥等。利用預測分析,IBM 發現可能會死於充血性
心臟衰竭的風險最大的 8500 位病人。
《MIT(麻省理工學院)技術導報》報告
5 聲稱,正是由於奧巴馬競選團隊有效利用了數
據挖掘技術,幫助奧巴馬於 2012 年贏得了與對手羅姆尼的總統競選。首先,競選團隊使用
資料探勘模型確定出潛在的奧巴馬支持者,然後確定這些支持者將會參與投票。競選團隊
還使用了單獨的資料探勘模型,按照不同選區預測投票結果。在著名的搖擺選區,即俄亥
俄州漢密爾頓選區,該模型預測奧巴馬將獲得 56.4%的選票;實際情況是,奧巴馬總統在
該選區獲得 56.6%的選票,預測值與實際值僅相差 0.2%。這樣準確的預測能力使得競選團
隊成員能在分配緊缺資源時獲得更高的效率。
資料探勘是從大型資料集中發現有用的模式和趨勢的過程。
預測分析是從大型資料集中獲取資訊以便對未來結果進行預測和估計的過程。
那麼,資料探勘是什麼?預測分析是什麼?
當你在大型超市排隊等待結賬時,是否曾經閉上眼睛傾聽?你可能會聽到收款臺上的
讀卡器在掃描讀取食品雜貨條形碼時所發出的嘟嘟聲,此時讀取的資料都存放到公司的服
務器上。每一次嘟嘟聲都意味著向資料庫中插入了一條新記錄,表明收集到包含新“觀察
值”的資訊,這些資訊涉及你的家庭以及其他透過收款臺的家庭所具有的購買習慣。
顯然,可以收集到大量的資料。然而,我們能夠從所有這些資料中學習到什麼呢?將
會從所有這些資料中得到何種新知識呢?現實情況是,可能沒有你想象的那樣多,原因在
於有經驗的資料分析人員嚴重短缺。
1.2 需求:資料探勘技術人員
早在 1984 年,在《大趨勢》一書 6 中,約翰·奈斯位元注意到“我們被大量資訊淹沒,
4 IBM and Epic Apply Predictive Analytics to Electronic Health Records , by Zina Moukheiber, Forbes
magazine, February 19, 2014.
5
How President Obama’s campaign used big data to rally individual voters , by Sasha Issenberg, MIT
Technology Review, December 19, 2012.
6
Megatrends , John Naisbitt, Warner Books, 1984.
但卻缺乏知識”。當前,這一問題不在於我們沒有足夠的資料或資訊流。事實上,目前多數
領域都存在大量的資料。問題在於,我們缺乏擅長於將所有這些資料轉換為知識的足夠分
析人員,他們能夠將分類樹轉為智慧。
資料探勘和知識發現領域的持續顯著成長是源於多種因素幸運交匯的結果:
● 收集到的資料呈爆炸性增長,正如前述超市掃碼器的案例所示;
● 將資料儲存到資料倉儲中,從而整個企業能夠訪問可靠的、最新的資料庫;
● 越來越多的人能夠透過網頁瀏覽和內聯網訪問資料;
● 在經濟全球化程式中為增加市場份額所遇到的競爭壓力;
● 可用的商業資料探勘套件的開發;
● 計算能力和儲存能力的不斷增大。
遺憾的是,McKinsey 報告
7 認為:
企業需要的能夠利用大資料的人才存在短缺。因此,想要獲取大資料中蘊含的價值將
嚴重受制於人才的短缺,特別是具有統計和機器學習方面專門知識的專家型人才,以及熟
知如何利用從大資料中獲得的知識來運營公司的管理人員和分析師。我們認為對大資料領
域需要的、能夠進行深入分析的職位呈現供不應求的狀況,短缺將達到 140 000~190 000
個職位。此外,我們認為在美國大約需要額外的 150 萬管理人員和分析師,他們能夠提出
正確的問題並有效地使用大資料分析的結果,開展管理和分析工作。
本書試圖幫助緩解資料分析人員嚴重短缺的現狀。
1.3 資料探勘離不開人的參與
自動化無法替代人的監督,資料探勘過程的每個階段都需要人的積極參與。與其尋找
人員適合在資料探勘中處理什麼工作,不如詢問我們如何能夠將資料探勘設計成為人性化
的問題求解過程。
此外,當前可用的強大資料探勘演算法嵌入在黑盒軟體中,這會導致大量的誤用,從而
產生更大的危險。與其他新的資訊科技一樣,資料探勘技術也容易產生不良的效果。例如,
研究人員可能應用不適當的、與正確途徑完全不同的方法分析資料集,或者得出的模型建
立在完全似是而非的假設的基礎上。因此,需要理解作為軟體底層的統計和數學模型的
結構。
7 Big data: The next frontier for innovation, competition, and productivity , by James Manyika et al .,
Mckinsey Global Institute, May, 2011. Last accessed March 16, 2014.

1.4 跨行業資料探勘標準過程:CRISP-DM
在一些公司中,由於部門習慣和組織劃分,存在著混亂地處理資料探勘的情況,從而
浪費大量資源,開展重複勞動。因此明顯需要建立一種跨行業的標準,該標準應與行業、
工具和應用無關。跨行業資料探勘標準過程(CRISP-DM
8 )由來自戴姆勒-克萊斯勒、SPSS
和 NCR 的分析人員共同開發。CRISP 提供了一種開放的、可自由使用的資料探勘標準過
程,使資料探勘適合於商業或研究單位的問題求解策略。
按照 CRISP-DM 標準,一個資料探勘專案的生命週期包含 6 個階段,如圖 1.1 所示。注
意階段順序是自適應的。這意味著,後一階段通常依賴於與之相關的前一個階段的結果。階
段之間最顯著的依賴關係用箭頭表示。例如,假設我們目前處於建模階段。根據模型的
行為和特徵,在進入模型評估階段前,我們可能需要返回到資料準備階段做進一步的完
善工作。
業務/研究
理解階段
資料理解
階段
部署階段
評估階段 建模階段
資料準備階段

圖 1.1 CRISP-DM 是一個迭代的、自適應的過程
CRISP 的迭代特性如圖 1.1 中的外圈所示。通常,針對特定業務或研究問題的解決方
案將會產生更為深入的有趣問題,這些問題往往可以使用與之前類似的通用過程加以解決。
8 Peter Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinart, Colin Shearer, Rudiger
Wirth,
CRISP-DM Step-by-Step Data Mining Guide , 2000.
從過去的專案中學到的經驗教訓始終應該作為新專案的輸入。以下是對各個階段的簡略描
述(在評估階段遇到的問題可以由分析人員返回前面的任一階段開展完善工作)。
CRISP-DM:六階段概述
1. 業務/研究理解階段
a. 首先,根據業務或研究單元,從總體上清楚地闡明專案目標和需求。
b. 然後,將這些目標和約束轉換為資料探勘問題定義的公式。
c. 最後,準備實現這些目標的初步策略。
2. 資料理解階段
a. 首先,收集資料。
b. 然後,透過探索性資料分析熟悉資料,發現淺層見解。
c. 評估資料質量。
d. 最後,如果需要的話,選擇可能包含可執行模式的感興趣資料子集。
3. 資料準備階段
a. 該階段需要投入大量的精力,涵蓋準備最終資料集的方方面面,這些資料將用
於後續階段,涉及初始資料、原始資料和髒資料。
b. 選擇要分析的案例和變數,為分析做好準備工作。
c. 如果需要的話,對確定的變數進行轉換。
d. 對原始資料展開清理工作,為使用建模工具建模打下基礎。
4. 建模階段
a. 選擇並應用適當的建模技術。
b. 校準模型設定以最佳化結果。
c. 通常,對同一個資料探勘問題可能要應用多種不同的技術。
d. 可能需要返回資料準備階段,以便使資料形式能夠符合特定資料探勘技術對數
據的特定需求。
5. 評估階段
a. 建模階段將釋出一個或多個模型。在將這些模型部署到現場進行使用前,必須
對模型質量和效果開展評估工作。
b. 同時要確認模型是否能完成階段 1 設定的目標集。
c. 確認業務或研究問題的重要組成部分是否未被清楚地解釋。
d. 最後,做出有關是否使用資料探勘結果的決定。
6. 部署階段
a. 建立了模型並不意味著專案已經完成。需要應用已建立的模型。
b. 簡單部署例項:建立報表。
c. 複雜一些的部署例項:在其他部門實現並行資料探勘過程。
d. 對商業應用來說,客戶通常會基於建立的模型開展部署工作。

本書廣泛採納 CRISP-DM,當然有些方面進行了修改。例如,在執行探索性資料分析(第
3 章)前,我們趨向於先清理資料(第 2 章)。
1.5 資料探勘的謬誤
在美國眾議院技術、資訊政策、政府間關係和人口普查小組委員會以前的發言中,鸚
鵡螺系統公司總裁 Jen Que Louie 描述了對資料探勘的 4 種常見謬誤,其中兩種與我們前述
的警告相同:
● 謬誤 1:資料探勘工具可以方便地連線到我們的資料倉儲並得出問題的答案。
實際情況是,不存在能夠機械式地自動解決你的問題並且你什麼都不需要做的自
動化資料探勘工具。資料探勘是一個過程,而 CRISP-DM 是一種將資料探勘過
程融合到整個業務和研究活動中的方法。
● 謬誤 2:資料探勘過程是自動化的過程,幾乎不需要人為的監督。
實際情況是,資料探勘不是魔術。沒有訓練有素的人員的監督,盲目使用資料挖
掘軟體將會帶給你錯誤問題的錯誤解答,並且運用到錯誤的資料型別。此外,錯
誤的分析比不做分析更糟,因為錯誤分析所產生的策略建議將帶給你代價昂貴的
失敗。即使部署模型之後,新資料的引入通常也需要對模型進行更新。必須由分
析人員不斷地開展質量監督和其他的評估度量工作。
● 謬誤 3:資料探勘很快就會收回投資。
實際情況是,回報率差別很大,這依賴於初始開銷、分析人員開銷、資料倉儲準
備的開銷等。
● 謬誤 4:資料探勘軟體包直觀易用。
實際情況是,易用性也是千差萬別的。然而,不要聽信一些軟體開發商廣告的宣
傳,你不能僅僅購買資料探勘軟體,安裝並袖手旁觀,等著它為你解決所有的問
題。例如,演算法需要特定的資料格式,這可能需要大量的預處理工作。資料分析
人員必須同時具備分析問題的學科知識,並且熟悉整個業務和研究模型。
除了以上所列的謬誤外,我們增加了其他 3 種常見的謬誤。
● 謬誤 5:資料探勘將確定我們的業務或研究問題的原因。
實際情況是,知識發現過程將幫助你揭示行為模式。再次強調,確定原因是由人
完成的工作。
● 謬誤 6:資料探勘將自動清理混亂的資料庫。
實際情況是,當然不是自動的。作為資料探勘過程的最初階段,資料準備階段通
常用於處理多年來未檢驗和使用的資料。因此,開始新的資料探勘操作的組織通

常將面對多年未使用的資料問題。由於多年未被使用,需要對這些資料進行大量
的更新工作。
● 謬誤 7:資料探勘總是會提供正面的結果。
實際情況是,當對資料進行挖掘工作以獲得可用知識時,並不能保證獲得正面的
結果。資料探勘不是解決商業問題的靈丹妙藥。透過由理解所涉及的模型、資料
需求和專案總體目標的人員適當地使用,資料探勘的確能夠提供有價值的、高效
益的結果。
以上討論也可稱為資料探勘不能做什麼工作。以下內容將轉入討論資料探勘能做什麼
工作。
1.6 資料探勘能夠完成的任務
以下列表展示最常見的資料探勘任務:
資料探勘任務
1 描述
2 評估
3 預測
4 分類
5 聚類
6 關聯
1.6.1 描述
有時,研究人員和分析人員試圖發現隱藏在資料中的模式和趨勢描述方法。例如,民
意調查員可能會發現失業人員不大可能在總統選舉中支援現任總統的證據。對此類模式和
趨勢的描述通常會得出可能的解釋。例如,失業人員的財務狀況通常比現任總統就任前要
差得多,因此趨向於投票給新的總統候選人。
資料探勘模型應該儘可能透明。也就是說,資料探勘模型的結果應該描述清晰的模式,
這些模式服從直覺解釋。一些資料探勘方法比其他資料探勘方法更適合透明解釋。例如,
決策樹提供直觀的、便於人們理解的解釋結果。然而,神經元網路由於模型的非線性和復
雜性,對非專業人士來說其解釋相對要模糊得多。
高質量的描述通常能夠以探索性資料分析實現,這是一種圖形化的方法,對資料進行
探索以搜尋模式和趨勢。我們將在第 3 章中考察探索性資料分析方法。

1.6.2 評估
對評估來說,我們用一組數字和/或分類預測變數近似估計數字目標變數的值。建立的
模型使用“完整”的記錄,這些記錄提供了目標變數的值以及預測值。然後,對於新的觀
測結果,估計目標變數與預測變數之間值的差異。
例如,我們對評估醫院病人的收縮期血壓讀數感興趣,該評估基於病人的年齡、性別、
身體質量指數、血鈉水平等。收縮期血壓與訓練集中的預測變數之間的關係將給我們提供
一個評估模型。然後我們可以將該模型應用於新病例中。
業務和研究中涉及的評估任務包括:
● 評估一個隨機選擇的四口之家在秋季返校前的購物開銷情況;
● 評估橄欖球聯賽中進攻後衛在膝蓋受傷後導致的折返跑動作下降的百分比;
● 評估勒布朗·詹姆斯在加時賽中面對包夾戰術時每場比賽的得分情況;
● 基於本科生的 GPA,評估研究生的 GPA。
如圖 1.2 所示,散點圖表示 1000 名研究生的 GPA 與本科生的 GPA 的情況。按照最小
二乘準則的簡單線性迴歸讓我們能夠發現這兩個變數之間的近似關係。在已知學生本科
GPA 的情況下,圖 1.2 所示的迴歸線用於評估研究生的 GPA。
研究生的 GPA
本科生的 GPA

圖 1.2 基於迴歸線的迴歸評估
迴歸線的表示式(由統計軟體包 Minitab 產生,圖 1.2 也是由該軟體包生成的)為
y x ˆ   1.24 0.67 。該公式表明,評估畢業生年級平均成績等於 1.24 加上 0.67 倍本科生年
級平均成績。例如,假定你的本科年級平均成績為 3.0,則畢業生年級平均成績為
y ˆ    1.24 0.67(3) 3.25 。注意點 ( 3.0, 3.25) x y   ˆ 精確地出現在迴歸線上,與線性迴歸預測
的結果完全一致。
統計分析領域提供了幾種廣泛使用的經典評估方法,包括點評估以及置信區間評估、

簡單線性迴歸和關聯、多元迴歸等。我們將在第 5、6、8、9 等章中介紹這些方法。第 12
章也可用於評估分析。
1.6.3 預測
預測與分類和評估類似,但預測主要是針對未來的情況。商業和研究領域的預測任務
包括:
● 預測未來 3 個月的股票價格;
● 在限速提高後,預測下一年交通死亡人數增加的百分比;
● 根據每個球隊的統計結果比較,預測今年秋季世界盃系列賽的冠軍;
● 預測藥物研發中的某個特定分子是否會給製藥公司帶來有利可圖的新藥。
在適當的環境下,所有分類和評估技術使用的方法和技術也可以用於預測。這些方法
包括傳統的點評估和置信區間評估、簡單線性迴歸和關聯、多元迴歸等統計方法,將在第
5 章、第 6 章、第 8 章和第 9 章中探討。還包括資料探勘和知識發現方法,如
k -最近鄰方
法(第 10 章)、決策樹(第 11 章)和神經元網路(第 12 章)等。
1.6.4 分類
分類方法與評估方法類似,區別是分類方法的目標變數是類別而不是數字。對分類來
說,包括一個目標分類變數,例如收入檔次,該變數可分為 3 個類別或類:高收入、中等
收入和低收入。資料探勘模型檢驗大量的資料記錄,每個記錄包含目標變數的資訊以及一
組輸入或預測變數。例如,考慮如表 1.1 所示的資料集摘錄內容。
1.1 摘錄自資料集的分類收入

目標 年齡 性別 職業 收入檔次
001 47 軟體工程師
002 28 營銷顧問 中等
003 35 失業

假設研究人員希望對新個體的收入檔次進行分類,該個體目前不在上述資料集中,而
是要基於與該個體相關的其他特徵開展分類工作,例如年齡、性別、職業等。這就是典型
的分類任務,非常適合採用資料探勘方法和技術來解決。
解決該問題的演算法簡單描述如下。首先,驗證資料集中包含的預測變數和(已經分類的)
目標變數,即收入檔次。以此方法,演算法(軟體)“透過學習知道”不同的變數組合與收入
檔次的哪個類別關聯。例如,年齡稍長的男性可能與高收入類別關聯。該資料集稱為訓
練集。
然後,演算法將查詢新記錄,新記錄的收入檔次一欄中尚未包含任何資訊。基於訓練集
中的分類,演算法將給新記錄分配其所屬的類別。例如,63 歲的男性教授可能會被分類到高

收入類別中。
商業和研究領域的分類任務示例如下:
● 確定特定的信用卡交易是否存在欺詐;
● 根據其特定的需求,將新學生放入特定的佇列中;
● 評估抵押貸款申請的信用風險;
● 確定遺囑是否由死者書寫,還是被他人篡改;
● 確定一定的財務或個人行為是否預示存在某種恐怖威脅。
例如在醫療領域中,假設我們希望根據病人的特徵(如病人的年齡、病人的鈉鉀比)對
其服用藥的型別進行分類。對於包括 200 名病人的樣例,圖 1.3 給出了病人鈉鉀比與病人
年齡的散點圖。服用的不同藥物由圖中不同灰度的點表示。淺灰點表示藥物 Y,中度灰點
表示藥物 A 或 X,深灰點表示藥物 B 或 C。圖中鈉鉀比對應 Y(垂直)軸,年齡對應 X(水
平)軸。
鈉鉀比
年齡

圖 1.3 何種藥物應該讓何種型別的病人服用
假定我們將基於該資料集,為病人開具處方藥。
(1) 對於鈉鉀比高的年輕病人,我們應該推薦何種藥物呢?
年輕病人位於圖的左邊,鈉鉀比高的病人位於圖的上半部分,這表明以前推薦給具有
高鈉鉀比的年輕病人的藥物為 Y(淺灰點)。因此,推薦給該類病人的預測分類藥物為 Y。
(2) 對於具有低鈉鉀比的老年病人,我們應該推薦其服用何種藥物呢?
該類病人處於圖中右下的位置,已服用不同的藥物,由深灰點(藥物 B 或 C)或中度灰
點(藥物 A 或 X)表示。在沒有其他具體資訊的情況下,無法獲得確定的分類。例如,也許
這些藥對 beta 阻滯劑、雌激素水平或其他藥物存在不同的影響,或者存在禁忌條件,如哮
喘或心臟病等。
圖形和圖表有助於理解資料所包含的二維或三維關係。但有些時候,分類需要基於很

多不同的預測屬性,並且需要多維圖表。因此,我們需要開發更復雜的模型以執行分類任
務。在第 10~14 章中將對用於分類的常見資料探勘方法開展討論。
1.6.5 聚類
聚類是一種將相似的記錄、觀察和案例劃分到同一個類別中的方法。聚類中的簇是相
似記錄的集合,不相似的記錄被劃分到不同的簇中。聚類與分類的區別在於,其沒有目標
變數。聚類任務不需要分類、評估或預測目標變數的值。相反,聚類演算法發現並將整個數
據集劃分為相對同質的子集合或簇,簇內的記錄相似性最大化,簇外的記錄與簇內的記錄
相似性最小化。
Nielsen Claritas 公司處理聚類業務,他們提供按照郵政編碼劃分的全國不同地理區域
的人口統計概貌。該公司所使用的聚類機制之一是 PRIZM 分段系統,該系統描述美國所
有郵政編碼區域的獨特生活方式型別。表 1.2 展示的是涉及的 66 個不同簇。
1.2 PRIZM 分段系統使用的 66 個簇

01 Upper Crust 02 Blue Blood Estates 03 Movers and Shakers
04 Young Digerati 05 Country Squires 06 Winner’s Circle
07 Money and Brains 08 Executive Suites 09 Big Fish, Small Pond
10 Second City Elite 11 God’s Country 12 Brite Lites, Little City
13 Upward Bound 14 New Empty Nests 15 Pools and Patios
16 Bohemian Mix 17 Beltway Boomers 18 Kids and Cul-de-sacs
19 Home Sweet Home 20 Fast-Track Families 21 Gray Power
22 Young Influentials 23 Greenbelt Sports 24 Up-and-Comers
25 Country Casuals 26 The Cosmopolitans 27 Middleburg Managers
28 Traditional Times 29 American Dreams 30 Suburban Sprawl
31 Urban Achievers 32 New Homesteaders 33 Big Sky Families
34 White Picket Fences 35 Boomtown Singles 36 Blue-Chip Blues
37 Mayberry-ville 38 Simple Pleasures 39 Domestic Duos
40 Close-in Couples 41 Sunset City Blues 42 Red, White and Blues
43 Heartlanders 44 New Beginnings 45 Blue Highways
46 Old Glories 47 City Startups 48 Young and Rustic
49 American Classics 50 Kid Country, USA 51 Shotguns and Pickups
52 Suburban Pioneers 53 Mobility Blues 54 Multi-Culti Mosaic
55 Golden Ponds 56 Crossroads Villagers 57 Old Milltowns
58 Back Country Folks 59 Urban Elders 60 Park Bench Seniors
61 City Roots 62 Hometown Retired 63 Family Thrifts
64 Bedrock America 65 Big City Blues 66 Low-Rise Living

如表 1.2 所示,郵政編碼 90210 的加利福尼亞貝弗裡山地區的簇如下:
● 簇#01:上流社會
● 簇#03:名流權貴
● 簇#04:青年文人
● 簇#07:富人與老闆
● 簇#16:波希米亞人
簇#01:上流社會的描述是“作為國家最獨特的地域,上流社會是美國最富裕的生活
方式,年齡在 45~64 歲的空巢夫婦的天堂。其他區段沒有像該區域一樣具有如此大量年收
入 10 萬美元以上且具有碩士學位的居民,也沒有如此奢華的生活標準”。
業務和研究領域的聚類任務包括如下示例:
● 為不能投入大量市場預算的小型公司的小眾產品確定目標市場;
● 出於財務審計目的,將財務行為劃分為良好和可疑類別;
● 當資料集包含大量屬性時,可作為一種降維工具;
● 對基因表示聚類,發現大量基因可能具有的相似行為。
聚類通常作為資料探勘過程的預處理步驟執行,得到的簇當作下游的不同技術的進一
步輸入,例如神經元網路等。第 19 章將討論分層和 K 均值聚類,第 20 章將討論 Kohonen
網路(一種自組織競爭型神經網路),第 21 章將討論平衡迭代約簡,以及使用層次的聚類方
法(BIRCH 方法)。
1.6.6 關聯
資料探勘的關聯任務主要是發現哪些屬性“同時出現”。商業領域最流行的方法常稱
為關聯分析或購物籃分析,其關聯的任務是發現規則以量化兩個或多個屬性之間的關聯關
系。關聯規則是一些形如“如果存在
前件 ,則產生 結果 ”的規則,與規則有關的度量主要
涉及支援度和可信度。例如,在某個超市中可能會發現,於週四晚上到超市購物的 1000
名客戶中有 200 人購買了尿布,在購買了尿布的 200 名顧客中有 50 人購買了啤酒。為此,
產生的關聯規則為“如果購買了尿布,則還會購買啤酒”,該規則的支援度為 200/1000=20%,
可信度為 50/200=25%。
商業和研究領域中關聯任務的示例包括:
● 調查在訂購公司手機計劃的客戶群體中正面回應服務升級的客戶所佔的比例;
● 驗證父母為其閱讀的孩子自己成為優秀閱讀者的比例;
● 預測電信網路出現問題的情況;
● 發現超市中哪些商品往往被客戶一起購買,哪些商品從未一起購買;
● 確定新藥物將顯示出危險副作用的案例比例。
在第 22 章,我們將討論建立關聯規則的兩種演算法:先驗演算法以及廣義規則歸納(GRI)
演算法。

R 語言開發園地
R 語言入門
#註釋、縮排以及分號
# 以#符號開始的所有字元均為註釋
# 註釋不會被 R 執行,它們主要用於解釋程式碼將要做什麼事情
# 縮排程式碼(不是註釋)只要處於同一行中,就將在 R 中執行
# 由分號隔開的程式碼將作為不同的行執行
# 使用分號表示行結束
# 開啟資料集並顯示資料
# 使用你希望開啟檔案的準確位置替換"c:/…/"
cars <- read.csv(file = "C:/…/cars.txt", stringsAsFactors = FALSE)
cars #為顯示整個資料集,應輸入資料集名稱
head(cars) #顯示資料集的前幾條記錄
names(cars) #顯示資料幀的變數名,這是 R 中的一種資料
cars$weight #僅查詢在資料幀 cars 中的 weight 變數
# 矩陣
# 建立一個三行、兩列的矩陣,將所有元素賦初值為 0.0
mat <- matrix(0.0, nrow = 3, ncol = 2); mat
colnames(mat) <- c("Var 1", "Var 2") #定義矩陣變數名
colnames(mat) #顯示矩陣的變數名
# 資料子集化及宣告新變數
cars.rsub cars[1:50,] #按行建立資料子集
cars.csub <- cars[,1:3] #按列建立資料子集
cars.rcsub <- cars[c(1,3,5), c(2,4)] #按特定的行和列建立資料子集
cars.vsub <- cars[which(cars$mpg> 30),] #根據邏輯條件建立資料子集
#宣告新變數,鍵入變數名、左向箭頭,然後給出變數值
firstletter <-"a"
weight <- cars$weight
# 同時顯示一幅或多幅圖
par(mfrow=c(1,1)) #畫出 1 幅圖;這是預設設定
par(mfrow=c(2,3)) #畫出 6 幅圖:其中 3 幅圖畫在頂部,另外 3 幅圖畫在底部
#圖形將逐行地填充

# 下載並安裝 R 軟體包
R 參考文獻
Wickham H. ggplot2: Elegant Graphics for Data Analysis . New York: Springer; 2009.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria:
R Foundation for Statistical Computing; 2012. ISBN: 3-900051-07-0,
練習
1. 對以下每個描述,確定與之相關的資料探勘任務:
a. 波士頓凱爾特人隊希望近似預測他們的下一個對手在與他們比賽時會得到多少分。
b. 某軍事情報官員希望透過學習瞭解在某一個特定的戰略區域內,兩個派別各自
的比例。
c. 北美防空聯合司令部的防禦計算機必須立刻確定雷達上的光點是一群鵝還是來
襲的核導彈。
d. 政治策略師尋找特定國家/地區的募捐最佳組合。
e. 國土安全域性官員希望確定一系列財務和住宅變動是否暗示具有恐怖行動的趨勢。
f. 華爾街分析師被要求採用相似價格/收益比找出一系列公司股票價格的預期變化。
2. 對下列每場會議,解釋其處於 CRISP-DM 過程的哪個階段。
a. 專案經理想知道到下週為止是否將開始部署工作。因此,分析師開會討論他們設
計模型的可用性和準確性。
b. 資料探勘專案經理與資料倉儲專案經理會面討論如何收集資料。
c. 資料探勘顧問與市場部副總經理會面,該經理表示他希望推進客戶關係管理。
d. 資料探勘專案經理與產品線管理人員會面,討論如何實現改變和完善。
e. 分析師開會討論是否需要應用神經元網路或決策樹模型。
3. 討論資料探勘中對人的使用問題。描述完全依賴自動化資料分析工具可能帶來的後果。
4. CRISP-DM 並不是資料探勘領域唯一的標準過程。研究可以使用的替代方法(提示:
取樣、探索、修改、建模和評估(SEMMA)出自 SAS 聯盟的標準過程)。討論其與 CRISP-DM
的異同。
# 示例:ggplot2, 見第 3 章
install.packages("ggplot2")
# 選擇可選的 CRAN 映象,如右圖所示
# 開啟新的軟體包
library(ggplot2)

購買地址:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26421423/viewspace-2217457/,如需轉載,請註明出處,否則將追究法律責任。

相關文章