讓資料探勘工作起來-DM大討論[轉自Ken North]

bidwhome發表於2007-08-05
--[@more@]

幾年前的一場討論,現在看來對實際DM應用仍然有很好的參考價值,推薦給朋友們!

一、引子

1999 年 Data Miner 專欄首次出現在 DB2 雜誌上。4 年以後,資料探勘仍然是個熱點話題。最近,一個 Gartner 報告中(2002 年 12 月"技術採用和價值:調查結果")將資料探勘排在了所有行業裡對組織有戰略性影響的 37 項新興技術中的第三位。資料探勘已經被人們接受、應用並且普遍存在。

最近,我與我在 IBM Thomas J. Watson 研究室的同事們共同探討了關於資料探勘未來的發展趨勢。其中包括資料分析主管 Chid Apte ,他的團隊在資料探勘和相關領域實施了純理論的研究及應用研究。此外,Apte 所在團隊的成員 Naoki Abe、Rick Lawrence 和 Ed Pednault 也加入了這次討論。他們從科學家和商業顧問的雙重角度(他們經常花許多時間和 IBM 客戶在一起,幫助客戶們找出某些特定商業問題的解決方案)發表自己的觀點。

二、討論

Hermiz:在我們討論未來之前,先讓我們先簡單談談過去。你認為資料探勘最大的成功之處是什麼?這項技術在哪些地方還沒有達到其預期目標呢?

Apte:資料探勘的最大成功之處在於它使以一種更自動化的方式對具有大量資料的商業活動進行分析和探索成為可能,這在過去需要由行業專家和統計專家來提取有價值的資訊。雖然這可能不符合傳統意義上的成功概念,但它確實正在開啟一扇門,這就是我認為資料探勘的最大成就。至於它的不足之處,我認為挑戰主要在於其可操作性上,到目前為止我們依然沒有解決這個難題。

Pednault:我想已經有相當數量的公司都做了資料探勘,並且完全依賴於預測模型來從事他們的商業活動並從中獲利。從那些公司的情況看來,資料探勘增強了他們的能力。對我來說,這就是成功的定義。舉例來說,一些公司已經使用資料探勘來進行信貸風險評估很長一段時間了,他們依賴資料探勘來支援他們的風險管理。

Lawrence:繼續延伸一下 Apte 的話題,問問你自己在資料探勘領域最成功的應用是什麼呢?我的看法是信用卡欺詐行為檢測,在這個應用裡,資料量非常大,一旦你犯了錯誤將會造成重大損失,並且處理工作必須非常快速地線上進行。當然我能肯定還有更多的成功案例。另一方面,如果我們批判地來看資料探勘,我們能夠得出這樣的結論:當被作為解決任何特定問題的萬能藥時,資料探勘通常會失敗。在這些情況下,它的失敗是因為人們對它的期望值太高了。沒有實踐過資料探勘的人們覺得它幾乎是不可思議的,他們以為拿來一個根本就不合適的問題,難以置信地填入一些髒資料到資料探勘工具裡,然後莫名其妙就能產生一個有用的解決方案。這是不可能的。[資料質量是關鍵,所謂的Garbage in,garbage out,這就要求儘量規範的業務歷史資料]

Abe:談到資料探勘的成就不可能不談談 Web 的成就。我想補充的一點是,對資料探勘的預期目標在某種程度上是失敗的,這是因為基於 Web 的應用模型同樣沒有實現它的預定目標。有這麼一種觀點:在 Web 上,資料應該能夠自動出現,並且操作也應該自動發生。事實證明並沒有這麼簡單,商業活動還涉及到人、資料的物理儲存以及操作問題等因素。

Hermiz:如果讓你來考慮基於資訊解決方案的要素--人、過程和技術--你認為挑戰和機遇分別在哪裡?

Apte:這幾個要素緊密聯絡。對一個因素的挑戰對另外一個因素來說就是機遇。我們可以將技術應用於流水線型的業務處理過程,透過減少人們的工作量使他們能夠去做他們最擅長的事情。

Pednault:我認為技術是最重要的,它創造了機會,但同時還存在非常多的變化需要過程來處理,當然最終運用技術的還是人。那麼哪些變化是必需的呢?就拿客戶關係管理(CRM)系統來說,通常你會安排不同的經理來負責不同的商業活動,而商業活動過程的經理又有可能是其他人,這樣客戶所看到的不再是獨立的一個商業活動,而是一系列的活動,於是在這樣的業務過程中您可能失去客戶關係。在 CRM 中業務過程需要按照自己的方式來啟動。即使技術的存在有助於管理個別的客戶關係,但是這樣做需要業務過程的巨大轉變。業務人員必須意識到這些變化對業務的發展是必需的,然後他們將處理所有與人有關的問題(誰管理什麼,誰擁有什麼,以及如何衡量每個人)。而在一些組織團體中可能會存在非常大的慣性阻力,導致不能充分地利用技術的優勢。

Lawrence:我認為技術的進步不可能導致一些相應的技能,如資料分析、統計學等變得過時。但是這對收集資料的那部分IT從業人員來說要求更強的業務理解能力,他們需要採取一種可以被商業智慧工具實際使用的方式來收集資料。

Apte:如果能夠提高具有必備這種技能工作人群的數量,你當然可以更多地利用我們今天已經擁有的技術。但是這種投資是我們應該做的嗎?--它使得過程更加依賴於勞動力--而不是提高技術水平來降低對熟練勞動力的依賴。

Abe:我同意那些技能永遠不會過時,但是我也相信存在著這樣的推動力,它促使資料探勘過程的更多部分變得自動化。在未來的3到5年,我認為自動化將會對技巧技能依賴的減少產生巨大的推動作用。

Hermiz:當我們談及資料探勘的時候,總是要圍繞資料而言。對於目前商業資料的狀況--包括資料的收集、淨化和儲存,你有什麼看法呢?業務資料質量的缺乏是一個重大的制約因素嗎?

Lawrence:我認為,對於資料探勘社群而言,在這方面我們的進展幾乎陷入了一個非常困窘的局面。即使倒退10年來看現在面臨的資料收集方面的各種失敗,我想我們都會感到震驚。如果談到客戶資料庫,從考察到訂單實施,整個資料收集過程中各個方面之間聯接的脫節是如此的頻繁,以至於讓我們都感到驚訝。構建能夠顯示出一個具體營銷活動和採購決策最終效果的資料是非常困難的。因此,使用那些資料來開發一個資料探勘模型用於改進過程也是非常困難的。

Apte:雖然資料倉儲以及相關聯的資料淨化工具已經大量存在,但是它們沒有像我們希望的那樣被廣泛和大量地使用。而且,我不認為那些使用工具的人就已經解決了一些問題,包括收集資料並且按照資料探勘可以使用的格式組織這些資料。我們這個研究團體花費在探索、並利用技術來解決這個問題的時間遠遠少於它本應該花費的時間。

Lawrence:實際上,我想說的是資料收集過程是如此之差,以至於資料探勘研究人員總是被要求重新構建系統,以回退和糾正資料收集系統中存在的缺陷。現在我們正在使用一項技術,我們計劃將其用於淨化資料,以糾正資料收集系統中不斷出現的錯誤。一個很小卻又很令人煩惱的例子是:允許以任意格式輸入一個特定採購決策的CRM系統。與其將系統設計成為給使用者提供三、四種不同的結果來選擇--買或不買等等,我們還不如將文字分析應用於自由格式的響應,以推匯出結果。

Abe:我認為5年以後,資料淨化、預處理和文字挖掘的自動化將會成為一個非常大的技術挑戰,這是由資料準確度問題所導致的。

Pednault:如果從資料的角度來看,這些從事商業活動的客戶明白他們所收集的每個資料元素的價值。因此他們能夠適當地安排業務處理過程來確保資料的質量,並且確定營銷決策與最終效果之間的聯絡,從而建立預測模型來改進他們的過程。為了把這些過程安排到合適位置,首先你需要理解資料價值的管理層人士,並且維持與合適的分析人員之間的聯絡,這些分析人員能夠幫助設計資料庫,以確保資料可以被正確地表述。他們付出很大的努力來收集和淨化客戶屬性資料,同時也確保資料達到足夠的數量。

Hermiz:或許是出於對本地安全的考慮,人們似乎對文字挖掘和分析又有了興趣。你認為將來資料和文字挖掘會融合嗎?

Apte:資料探勘和文字挖掘可能會融合到某種程度,即文字知識庫能被當作重要特徵和屬性的來源,來完成我們今天所做的某種資料探勘。文字挖掘有其獨特的貢獻,這些貢獻集中在對文件和知識庫的資訊提取、趨勢預測以及智慧評估,這使它們成為資料探勘的補充,但不是必須與資料探勘相融合。

Abe:我看還是有些融合的。在自然語言學術界(會議)上,資料探勘和機器學習技術方面的論文數量急劇增長,現在它們已經佔到論文中的大部分。當然,正如Chid Apte 所說的,文字挖掘研究的部分由將資料探勘技術應用於提取文字特徵所組成。但是在文字挖掘研究中一個非常重要的部分包括具體的自然語言問題(例如自動獲取對分析有用的句法知識和語義知識)。

Lawrence:我已經和一些客戶談到了這些問題,他們希望同時分析結構化的資料以及來自新聞之類的非結構化資料。

Hermiz:你認為從今往後 3 到 5 年中,資料探勘應用的最大機會在哪裡?什麼樣的改進將使它的應用成為可能?

Apte:我覺得,站在供應鏈的角度,大量的資料都是可獲得的,但是今天的系統和解決方案都還沒有發展到可以利用像資料探勘這樣複雜方法的程度。它們似乎仍然停留在傳統的統計學的預測技術上。

Pednault:到了那時,將有一個很好的機會把資料探勘、預測模型和最最佳化結合起來,透過把資料探勘提升到一個更大的範圍就一定能實現這種結合。許多用在供應鏈管理上的預測方法相對於用在信用卡積分和 CRM 上的技術來說是很原始的,因此還存在許多的機會來進入這個領域。在供應鏈中,資料的重要性已經得到了認可--可以得到一個從生產商、供應商、分銷渠道,直至客戶的橫向視角。而且系統將被適當地部署,用來收集、管理和維護所有資料。然而,許多目前存在的利用資料進行決策的過程還非常落後,管理整個供應鏈已變得越來越重要。要使這一切變為現實,需要商業處理過程的轉變和供應鏈中不同角色的合作。

Abe:人們對金融領域有著極大的興趣,它關係著可操作的恢復能力和風險管理。未來資料分析將在這些方面發揮重要的作用。

Lawrence:本地安全當然是一個人們逐漸感興趣的領域。它圍繞著非結構化資料的處理,但也需要結構化資料來從可接受或者正常的行為中尋找異常行為。

Apte:許多分析學正在進入生命科學-雖然這些應用從本質上說更具有科學研究的性質。有這樣一個關於隱私保護資料探勘的話題--在隱藏了個人記錄的匿名資料上進行資料探勘的功能。可能有一天,我們可以合法地來做這項工作了。

Hermiz:對於各個公司和組織,你建議他們採取什麼樣的步驟來為充分利用資料探勘的未來技術發展做更好的準備呢?

Lawrence:他們應該明確地提出一個非常清晰、技術上可行的想要達到的目標,然後修正他們的資料收集過程,以使那個目標在技術上可行

Apte:這些工作都與採用一種統一的風格適當地保護和獲得資料有關。可以透過多種形式,其中之一就是慎重考慮哪一種處理流程是我們正在尋找的能用於開發商業智慧解決方案的,並且確保資料能被正確地收集,以支援這些方案。

Pednault:從資料的角度看,在你需要做出決策時及時獲取的資訊,和你所做出的決定以及這個決定所導致的後果三者之間必然存在聯絡。你必須能夠在某一時刻及時地產生出對資料的正確表述,這是一個方面;另一方面就是透過適當地安排過程為業務做準備,以利用這些結果。

三、後記

不僅僅是技術在幾個小時的討論中,沒有一個參與者提到資料探勘技術會抑制其成功應用的問題。人們總是有很多機會發明更好、更快、更巧妙的演算法,或者發現更多最佳途徑來部署這些資料探勘程式到各種各樣的硬體和軟體基礎架構中。然而,在應用資料探勘到現實世界商業問題時,這些團體的經驗告訴我們:要成功地運用資料探勘挑戰在於基本功。那些能夠收集適合於待解決問題資料,並且能適當地淨化與結構化這些資料的人們,將有最好的機會透過使用資料探勘來洞察資訊;那些專注於運用資料探勘結果的機構證明:透過他們的積極努力有效地最佳化了他們的過程、組織、管理以及報酬體系,他們最正確地操作這些結果並且實現了用於他們分析投資的回報。

關於資料探勘的故事還有內容可寫。續寫這些故事的人不應該是研究機器學習和電腦科學的科學家和工程師,而應該是那些像你們這樣從事資料探勘的實踐者們。每個公司都存在難以解決的問題和機會,但是解決這些問題可能獲得很大利益。您願意承擔(和投資)收集有用資料,並且最佳化調整商業處理過程這項艱鉅的工作嗎?如果您願意,技術已經成熟並且可以隨時對您提供支援。如果您不願意,那麼最好你期望你的競爭對手也會這麼認為

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7600305/viewspace-931828/,如需轉載,請註明出處,否則將追究法律責任。

相關文章