當資料遇到挖掘

yanke_shanghai發表於2016-04-26

資訊化的浪潮給全世界帶來的翻天覆地的變化。當你使用信用卡刷卡消費的時候,刷卡交易的資訊和購物情況已經進入了銀行和商場的資料庫;當你拿起手機撥打電話的時候,話單的資訊已經進入了電信運營商的資料庫;當你在醫院掛號就醫的時候,門診和處方的資訊已經進入了醫院的資料庫;當你使用公交卡乘車的時候,購買車票的資訊也已經進入了公交公司的資料庫。各種的情況都在表明,資訊無處不在,而且每時每刻都有大量新的資訊在產生,如同上下班高峰期的人流,擁擠而又嘈雜。

這還只是一幅幅靜止的畫面,如果讓我們以時間為膠片,把這些畫面連線起來,更會真切地發現在最近的二三十年內,企業中積累的各種資料已經遠遠超乎我們的想像。就像觀看一部科幻式的災難片,日積月累的資料如同因全球變暖而不斷上升的海平面,一步步逼近我們生存的陸地,那些我們曾經熟悉的大樓、公園、道路,則在一個個沉沒……

是否覺得有些危言聳聽?但是對於企業來說,這並不是一個神話。讓我來舉一個例子,你就可以看到資料量的急速增長給企業帶來多麼大的困擾和改變。薩姆·沃爾頓1918年出生於美國俄克拉何馬的金菲舍鎮,是一個土生土長的農村人,他7歲就開始送牛奶和報紙,另外還飼養兔子和鴿子出售,學費與生活費用大部分全靠自己打工籌措,取得了薩姆大學的商學士學位。1945年他退伍後,薩姆在阿肯色州的本頓維爾小鎮開了一家廉價商店,這是一家典型的舊式雜貨店,50英尺寬,100英尺深,面臨前大街,位於市中心,向外遠望看得到鐵路。商店裡有現金收銀機,整個店堂每個櫃檯後面都有供店員走動的通道,店員們坐等著顧客上門。創業之初,客戶非常少,薩姆可以記住那些熟客的名字,知道他們喜歡什麼樣的雜貨商品,常用的是哪些品牌,什麼商品最好賣,下個月應該進什麼貨等等。此時他對資料的處理分析只需透過紙筆就可以了。

經過幾十年的鍥而不捨的奮鬥,薩姆的連鎖店已經遍佈全球,2006年的營收高達3511億美元,超過美國石油巨頭埃克森美孚公司,佔據美國“財富”雜誌世界五百強的榜首。薩姆的公司名字就叫做“沃爾瑪”(WalMart)。

作為全球第一大的零售業巨頭,今天的規模已遠非當年創業時可比了,遍佈14個國家,7131家連鎖店,近200萬員工,上億的客戶。每天大量的交易資訊都在源源不斷地傳輸到公司總部的資料倉儲,資料容量超過了數百TB。如何從資訊的海洋中發現營銷機會,找到有利可圖的客戶,調整貨物的擺放位置,協調物流的計劃和排程等等問題,已經不能簡單地根據人的經驗、透過檢視報表或者手工分析來獲取答案,人們需要更加依賴於計算機的處理能力,需要更高階的分析技術來協助從海量資料中發現潛在的規律。

這種高階的分析技術之一就是資料探勘,而資料探勘領域裡最典型的案例就是“啤酒與尿布”的故事。

 

1、三個小故事

故事一、啤酒與尿布

世界零售連鎖企業巨頭沃爾瑪擁有世界上最大的資料倉儲系統之一,裡面存放了各個門店的詳細交易資訊。為了能夠準確瞭解顧客的購買習慣,沃爾瑪利對顧客的購物行為進行了購物籃分析,想知道顧客經常一起購買的商品有哪些,結果他們有了意外的發現:“跟尿布一起購買最多的商品竟是啤酒!”

這是資料探勘技術對歷史資料進行分析的結果,它符合現實情況嗎?是否是一個有用的知識?是否有利用價值?

於是,沃爾瑪派出市場調查人員和分析師對這一挖掘結果進行調查分析。經過大量實際調查和分析,揭示了一個隱藏在“尿布與啤酒”背後的美國人的一種行為模式:一些年輕的父親下班後經常要到超市去買嬰兒尿布,而他們中有30%40%的人同時也為自己買一些啤酒。產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班後為小孩買尿布,而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。

既然尿布與啤酒一起被購買的機會很多,於是沃爾瑪就將尿布與啤酒並排擺放在一起,結果是尿布與啤酒的銷售量雙雙增長。

按常規思維,尿布與啤酒風馬牛不相及,若不是藉助資料探勘技術對大量交易資料進行挖掘分析,沃爾瑪是不可能發現資料內在這一有價值的規律的。

 

故事二、犯罪的根源

格洛斯特郡是英格蘭西部的一個郡,大約有五十多萬人口。在有一段時間內,發生了多起搶劫案,民眾不再感覺到安全,對郡警察局的輿論壓力也陡然增加了,強烈要求及時破獲這些案件,並避免案件的進一步發生。警方一方面在加快破案的同時,也在努力思考怎麼樣才可以降低發案率。

按照傳統的做法,一般會採取這樣的措施:鎖定搶劫案的多發地區,加派警力進行巡邏,對行為異常的人員加強盤查等等。然而,格洛斯特郡警察局發現,這些措施的收效甚微,發案率依然居高不下,因為搶劫案的發案地點並不集中,分散在多個不同的街區,這讓巡邏警力的安排顯得捉襟見肘,難以全面顧及。

此時,來自警察局內部的分析系統卻有了新的發現。系統中儲存了多年的案件和案犯的卷宗資訊,透過利用資料探勘等分析技術,揭示出最近這段時間的搶劫犯具有一些非常顯著的特徵:他們大多是沒有固定住所,無家可歸,而且也沒有穩定的工作。另外,在很多搶劫案發生前,這些罪犯都吸食了毒品。正是在毒品的刺激作用下,他們失去了自控能力,臨時見財起意,對單身女性或情侶實施搶劫。

新的發現給警察局帶來了新的思路,警方當機立斷,對原來的增加警力加強巡邏的做法進行了調整,改為採取如下措施:一是加強對無業人員和有吸毒前科人員的管理,並透過社會福利機構對他們實施救助;然後,加強了對毒品交易易發場所的嚴打和治理,從源頭上掐斷毒品的供應。

治理得到了良好的效果,搶劫案的發案率迅速降低,格洛斯特郡的人們又重新恢復了平靜的生活。

 

故事三、電郵加新聞

Yahoo是第一家招募了首席資料官的公司,以驗證對公司而言,資料的確是一筆真實而有戰略意義的財富。目標是透過提供以客戶為中心的資料平臺和洞察力服務,激勵使用者積極參與,對營銷方案進行創新,從而為消費者和賣家帶來價值。Usama Fayyad博士是Yahoo的首席資料官,他在和KDnuggetsGregory的訪談中介紹了一些Yahoo在資料探勘方面的成功案例。

“產品整合:一個例子就是你今天在Yahoo電子郵箱上看到的,資料探勘的可視結果。透過對使用者使用行為的意外模式分析,我們發現在每次會話中,人們閱讀郵件和閱讀新聞的行為之間存在很強的相關關係。我們把這個發現傳達給Yahoo電子郵箱產品小組,他們首先想到的就是驗證這種關係的影響:在一組測試使用者的郵箱首頁上顯示一個新聞模組,其中的新聞標題被醒目顯示。”

“對於象電子郵箱這種產品,最頭痛的問題就是如何獲取新的‘輕量級使用者’,並推動他們的用量,使之變成‘重量級使用者’。如果你做到了,那麼流失率就會顯著下降。實際上,在我們的試驗中,最顯著的一組流失率下降了40%。於是Yahoo立刻開發並完善了新聞模組,並嵌入Yahoo電子郵箱的首頁,到現在,上億的消費者都可以看到並使用這種產品。我喜歡提及這個故事,因為它很好地說明了我們產品團隊的及時反應能力,也證明了在使用者使用行為資料中蘊含著很多很多極具價值的潛在模式。”

“即時通訊:我們對雅虎通(Instant Messenger)的使用情況進行了分析,以瞭解激勵用量的關鍵因素是什麼。結果發現,最重要的因素是讓使用者擴大他們的‘好友列表’,至少增加5個新的好友。據此Yahoo精心設計了相應的營銷活動,鼓勵使用者增加好友列表中的好友數,從而顯著激勵了雅虎通的用量。”

Yahoo首頁的搜尋框:一個簡單的例子就是我們發現,在Yahoo的首頁上,把搜尋框放在居中的位置(而不是以前的左側)將提高使用者的用量。這樣一方面可以促進使用者的積極使用,對Yahoo來說也沒有成本支出。這個結果的發現過程也很有趣,我們首先發現Netscape瀏覽器的使用者比IE的使用者更多地使用了搜尋功能,進一步探查發現兩個瀏覽器在視覺上的唯一區別就是:二者中的搜尋框位置不同!搜尋框在Netscape瀏覽器中是居中放置,而在IE中則是靠近左側。很不明顯的差別,但卻很重要。一般誰會想到呢?”

 

2、什麼是資料探勘?

關於什麼是資料探勘,很多學者和專家給出了不同的定義,以下我們列出幾種常見的說法:

“簡單地說,資料探勘是從大量資料中提取或‘挖掘’知識。該術語實際上有點用詞不當。資料探勘應當更正確地命名為‘從資料中挖掘知識’,不幸的是它有點長。許多人把資料探勘視為另一個常用的術語‘資料庫中知識發現’或KDD的同義詞。而另一些人只是把資料探勘視為資料庫中知識發現過程的一個基本步驟。” ——《資料探勘:概念與技術》(J. Han and M. Kamber

“資料探勘就是對觀測到的資料集(經常是很龐大的)進行分析,目的是發現未知的關係和以資料擁有者可以理解並對其有價值的新穎方式來總結資料。”——《資料探勘原理》(David Hand, et al

“運用基於計算機的方法,包括新技術,從而在資料中獲得有用知識的整個過程,就叫做資料探勘。”——《資料探勘--概念、模型、方法和演算法》(Mehmed Kantardzic

“資料探勘,簡單地說,就是從一個資料庫中自動地發現相關模式。”——《構建面向CRM的資料探勘應用》(Alex Berson, et al

“資料探勘(DM)是從大型資料庫中將隱藏的預測資訊抽取出來的過程。”——《資料探勘:機遇與挑戰》(John Wang

而作為資料探勘領域的華人第一人,韓家煒教授在《資料探勘:概念與技術》的教學幻燈片中,給出一個更清晰的定義:“資料探勘,就是從大型資料庫中抽取有意義的(非平凡的,隱含的,以前未知的並且是有潛在價值的)資訊或模式的過程。”

這裡我們可以看到資料探勘具有以下幾個特點:

l         基於大量資料:並非說小資料量上就不可以進行挖掘,實際上大多數資料探勘的演算法都可以在小資料量上執行並得到結果。但是,一方面過小的資料量完全可以透過人工分析來總結規律,另一方面來說,小資料量常常無法反映出真實世界中的普遍特性。

l         非平凡性:所謂非平凡,指的是挖掘出來的知識應該是不簡單的,絕不能是類似某著名體育評論員所說的“經過我的計算,我發現了一個有趣的現象,到本場比賽結束為止,這屆世界盃的進球數和失球數是一樣的。非常的巧合!”那種知識。這點看起來勿庸贅言,但是很多不懂業務知識的資料探勘新手卻常常犯這種錯誤。

l         隱含性:資料探勘是要發現深藏在資料內部的知識,而不是那些直接浮現在資料表面的資訊。常用的BI工具,例如報表和OLAP,完全可以讓使用者找出這些資訊。

l         新奇性:挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以幫助企業獲得進一步的洞察力。

l         價值性:挖掘的結果必須能給企業帶來直接的或間接的效益。有人說資料探勘只是“屠龍之技”,看起來神乎其神,卻什麼用處也沒有。這只是一種誤解,不可否認的是在一些資料探勘專案中,或者因為缺乏明確的業務目標,或者因為資料質量的不足,或者因為人們對改變業務流程的抵制,或者因為挖掘人員的經驗不足,都會導致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,資料探勘的確可以變成提升效益的利器。

“資料探勘”這個術語是在什麼時候被大家普遍接受的,已經難以考證,大約在上世紀90年代開始興起。其中還有一段趣話。在科研界,最初一直沿用“資料庫中的知識發現”(即KDDKnowledge Discovery in Database)。在第一屆KDD國際會議中,委員會曾經展開討論,是繼續沿用KDD,還是改名為Data Mining(資料探勘)?最後大家決定投票表決,採納票數多的一方的選擇。投票結果頗有戲劇性,一共14名委員,其中7位投票贊成KDD,另7位贊成Data Mining。最後一位元老提出“資料探勘這個術語過於含糊,做科研應該要有知識”,於是在科研界便繼續沿用KDD這個術語。而在商用領域,因為“資料庫中的知識發現”顯得過於冗長,就普遍採用了更加通俗簡單的術語——“資料探勘”。

嚴格地說,資料探勘並不是一個全新的領域,它頗有點“新瓶裝舊酒”的意味。組成資料探勘的三大支柱包括統計學、機器學習和資料庫等領域內的研究成果,其它還包含了視覺化、資訊科學等內容。資料探勘納入了統計學中的迴歸分析、判別分析、聚類分析以及置信區間等技術,機器學習中的決策樹、神經網路等技術,資料庫中的關聯分析、序列分析等技術。


3、資料探勘可以做什麼?

資料探勘的用處有很多,在這裡我只想從技術和應用兩個層面來簡單談談。

從技術層面來說,按照資料探勘產出的知識可以粗分為兩大類:描述型挖掘和預測型挖掘。描述型挖掘是對現有資料的進一步精煉和歸納,從中抽取中更宏觀的反映資料特徵的概念描述。舉個例子來說,某家銀行有幾百萬客戶,資料倉儲中儲存了每個客戶的人口統計資訊、賬戶資訊、交易資訊、客服聯絡資訊等詳細資料。但是銀行不可能清楚地瞭解每位客戶是什麼樣的客戶,客戶的消費模式到底是怎樣的?這時一般需要把全體客戶進行細分,劃分為幾個客戶群,而且這種劃分可以保證具有相似行為、相似價值的客戶會被放入同一個群組中。有了這些客戶群,銀行就能更容易地發現營銷機會並制定營銷戰略。這個例子中所用的挖掘技術是聚類模型,它就是一種典型的描述型挖掘。

預測型挖掘,顧名思義,就是建立的挖掘模型具備預測能力。這種預測能力可能包括預測哪些客戶下個月會流失,哪些客戶對促銷活動會積極響應,哪些客戶的未來價值會成長以及成長多少等等。預測型挖掘常常對企業運營具有更強的指導作用,從而更快地見效。

從應用層面來說,資料探勘可以應用到很多行業中,包括電信、銀行、證券、保險、製造、因特網等等。拋開具體行業的特定應用不談,在各個行業中一般都會把資料探勘應用在客戶關係管理(CRM)之中。在CRM中的資料探勘應用,包括客戶細分、客戶價值分析、客戶獲取、客戶保持、交叉銷售和提升銷售等等。此外,信用評分、欺詐偵測和文字挖掘等也是常見的應用。

客戶細分已經在描述型挖掘的例子中予以闡述,不再贅言。

準確地評價客戶價值是企業成功運營的關鍵。這裡的客戶價值不僅僅包括客戶當前給企業帶來的收入,還包括消耗在客戶身上的各種成本,以及客戶未來會給企業帶來多少價值。把客戶的當前價值和未來價值合起來就構成了對客戶整個生命週期(從成為企業的客戶到最終流失)價值的綜合評價,即LTVLifeTime Value)。當我們明確瞭解客戶價值之後,就可以有針對性地區分對待,儘量留住高價值客戶,推動中低價值的客戶向高價值發展,併為不同價值的客戶提供不同等級的服務。


圖:

上圖中給出了客戶生命週期各個階段中可以用到的資料探勘,橫軸為時間軸,縱軸則為客戶在不同時間點給企業帶來的利潤。整個生命週期可以分為四階段:起始期(從潛在客戶變成新客戶)、發展期(逐步擴大使用產品的範圍和數量)、成熟期(對企業的利潤貢獻達到頂峰)、終止期(逐漸遠去流失)。

在客戶生命週期的不同階段,資料探勘可以幫我們做什麼呢?在起始期,由於潛在客戶尚未與企業有多少接觸,對各種品牌和產品缺乏瞭解和認知,他還在觀望,看看有沒有適合自己的產品。此時潛在客戶基本上還談不上對企業有多高的忠誠度,我們可以運用資料探勘技術來協助鎖定目標潛在客戶群,透過對現有客戶和營銷活動的分析,發現哪些人最有可能變成我們的客戶,透過什麼促銷手段和渠道來更有效地打動他,並評價如果把他發展為客戶之後會給企業帶來多少收益。這種資料探勘應用稱為“客戶獲取”。

在發展期,客戶對企業的產品和服務使用頻率相對偏低,用量也不大,這時可以運用資料探勘技術來啟用睡眠客戶,刺激使用者購買更多不同的產品(交叉銷售),或者擴大現有產品的購買量(提升銷售)。資料探勘技術中的關聯分析可以幫助企業發現哪些產品之間的關聯程度最高,預測技術可以幫助我們瞭解客戶對特定營銷活動是否會積極響應,聚類技術則可以幫助我們找到具有相似行為和偏好的客戶群體,從而進一步推動客戶向高價值客戶發展。

在成熟期,客戶對企業的利潤貢獻已經最大化。但這時企業不能躺在功勞簿上睡大覺,而應該居安思危,謹防優質客戶的衰退和流失,及時對激烈的市場競爭作出反應。此時可以運用資料探勘中的預測技術來及早發現哪些客戶已經出現了異動,可能會流失,並採取有針對性的挽留行動。

實際上,在整個客戶生命週期,我們都要不斷對客戶的行為和價值進行分析,隨時掌握他們的偏好和異動,這樣才能加強企業對客戶的洞察力,對運營進行有力的指導和促進。而這些分析都是資料探勘可以幫助我們做到的。

 

4、資料探勘流程及主流工具

限於篇幅,本文並不想對資料探勘的技術多加闡述,讀者可以閱讀一些經典教材來獲得相應的知識,比如《資料探勘:概念與技術》、《資料探勘原理》、《機器學習》等。一般來說,常用的資料探勘技術包括:用於客戶細分的聚類演算法,用於交叉銷售的關聯分析和序列分析演算法,用於客戶價值分析、流失分析、交叉銷售的決策樹、神經網路和迴歸等預測演算法,用於網際網路的文字挖掘和Web分析等等。

Eric King在“如何在資料探勘上投資:避免預測型分析中昂貴的專案陷阱的框架”一文(發表於200510月的“DM Review”)中主張資料探勘是一段旅程,而非終點。他把這段旅程定義為資料探勘過程。該過程包含如下要素:

l         一個發現過程

l         具有靈活的框架

l         按照清晰定義的策略進行

l         包含多個檢查點

l         多次定期的評估

l         允許在反饋環路中對函式進行調整

l         組織為疊代式的架構

很多資料探勘工具的廠商都對這個過程進行了簡化,使之更加清晰。SAS將資料探勘過程劃分為五個階段:抽樣(Sample),探索(Explore),處理(Manipulate),建模(Model),評估(Assess)。過去人們常用迴圈式的飲水器來比喻資料探勘過程。水(資料)首先湧上第一層(分析階段),形成漩渦(精煉和反饋),等到聚積了足夠多“已經處理過”的水之後,就溢位來流到下一個更低的層中。不斷地進行這種“處理”,直到水流到最低層。在那裡它被抽回頂層,開始新一輪的“處理”。資料探勘和這種層次式的疊代過程非常相像。甚至在很多資料探勘演算法的內部處理也是如此,比如神經網路演算法,就是在資料集上多次執行(epochs),直至發現最優解。

但使用飲水器來比喻資料探勘過程還不算恰當,因為它沒有反映出反饋環路,而反饋環路在資料探勘過程中是很常見的。例如,透過資料評估可以發現異常的資料,從而要求從源系統中抽取更多的資料。或者,在建模之後,會發現需要更多的記錄才能反映總體的分佈。

“工欲善其事,必先利其器”。當企業打算運用資料探勘來改善企業運營時,選擇合適的資料探勘工具就變得很重要了。工具的選擇通常會從以下角度來考慮(同時還需結合企業的資訊化水平、具體的業務目標、要處理的資料量、對業務流程的改變等因素):

l         資料存取能力:能否訪問各種型別的資料,資料介面的效率如何

l         資料準備能力:資料處理能力,包括抽樣、過濾、變換、整合、探索等等

l         模型演算法的廣度和深度:是否支援各種挖掘演算法,多模型的比較及部署

l         視覺化能力:多種圖形展示,互動操作

l         效能:軟硬體平臺支援,並行,多CPU,多執行緒,分散式架構

l         對各種使用者和行業解決方案的支援能力

l         其它能力支援:中文支援,友好介面,批處理,API,後設資料管理等

企業也可以參考第三方評估機構的評測結果,來選擇資料探勘工具,比較權威的評估機構包括GartnerIDC等等。以下引用Gartner2007年第2季度釋出的“客戶資料探勘魔力象限”評估報告的部分內容,向大家簡單介紹主流的資料探勘產品。

“最近,著名軟體評測商Gartner對資料探勘領域軟體進行了評測,最終的結果是,SASSPSS以及領域中的傳統地位仍然位於資料探勘的領導者象限。異軍突起的是KXENPortrait Software,作為遠見卓識家而出現。挑戰者是一片空白,其它的十餘個廠商佔據著利基市場。”

“在此項評測中,共有SASSPSSKXENPortrait SoftwareAngoss SoftwareUnicaThinkAnalyticsFair IsaacInfor CRM Epiphany等九家公司入選,這代表著當今的市場情況,在中國市場,主要的資料探勘工具是SASKXENSPSS。”

2006年第1季度的評估報告中,還曾包含ChordiantTeradata等廠商。

評測的結果參見下圖。評估標準主要劃分為兩個角度:執行力(縱軸)和視角完整性(橫軸)。其中執行力的評估包括七個評估標準,分別是產品/服務、市場反應和跟蹤記錄、總體生存能力、客戶體驗、市場執行、銷售執行/定價和運營能力。視角完整性的評估包括八個評估標準,分別是產品策略、市場理解力、市場策略、銷售策略、垂直/行業策略、商業模型、創新能力和地理戰略。


圖: Gartner客戶資料探勘魔力象限(2007年第2

在上圖中,把主流的資料探勘廠商劃分為四個象限,分別是領導者(Leaders)、挑戰者(Challengers)、遠見卓識家(visionaries)和利基市場(niche players)。以下對資料探勘領域內的兩大領導廠商SASSPSS分別簡要介紹。


SAS

 

在資料探勘市場,SAS是最大的廠商,它有眾多的分析師,最多的客戶經驗,是資料探勘的傳統標準工具,外包和服務提供商都非常熟悉SAS的產品。

SAS有最完整的資料準備和分析工具,很少有SAS不能解決的問題。尋求“一站式商店”平臺的企業應該考慮SAS

SAS擁有廣泛的資料探勘成功案例,從而讓客戶對SAS充滿信心。

SPSS

 

SPSS在分析各種型別的資料有最廣泛的視角(行為、人口統計學、調查、非結構化資料等)。試圖充分利用多種資料型別(尤其網頁,流量,文字,調查)的企業應該考慮SPSS

SPSS對於模型管理環境有最好的視角,這可以更好的管理幾個資料探勘工具的結果。


轉自:http://idmer.blog.sohu.com/93324984.html

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/30316686/viewspace-2088596/,如需轉載,請註明出處,否則將追究法律責任。

相關文章