資料倉儲——在“啤酒與尿布”中挖掘 (轉)

worldblog發表於2007-12-07
資料倉儲——在“啤酒與尿布”中挖掘 (轉)[@more@]

資料倉儲——在“啤酒與尿布”中挖掘

01-5-21 下午 04:19:25


對話者: ??主持人:程?鴻——《世界》報記者 ??專?家:孟曉峰——中國人民大學資訊學院教授 ??????祁國輝——“資料倉儲之路”網站主持人 ??IT廠商:楊順生——NCR大中華區市場及合作伙伴總經理 ??用?戶:陳道斌——工商銀行資訊管理部處長(博士) 對話主題: ??資料倉儲在中國的應用前景如何? ? 資料倉儲的門檻有多高? 主持人:自從“啤酒和尿布”的故事在中國廣泛流傳之後,資料倉儲在中國也熱鬧了一陣子,許多企業家曾對它抱以極大的希望,但為什麼時隔不久資料倉儲應用就進入了“冬眠期”?資料倉儲技術在中國的應用受到了哪些因素的制約? 孟曉峰:資料倉儲是在基礎上發展而來的,它通常有三個部分:資料倉儲(Data Warehousing)、聯機分析處理(OLAP)及資料探勘(Datamining),它們之間具有極強的互補關係。資料倉儲是為了滿足人們在高度資料積累基礎上進行資料分析的需要而產生的,但由於目前中國在基礎資料的積累方面存在不足,導致資料倉儲技術的應用沒能推廣開來。一個技術的出現一般是由於創新者提出新的概念,研究者去解決某些問題;雖然資料倉儲已經跨過了這一階段,但目前在資料倉儲的應用推廣過程中,又遇到了一個門檻,那就是這種技術如何被多數人所接受。我認為要使資料倉儲被多數人接受,首先需要解決的問題就是資料探勘技術如何與現有商業技術的結合。目前市場上已有多種適用解決所有商業的通用資料探勘,但實際上這些系統極其不好用,只有那些非常熟悉資料探勘技術的人才能夠理解和使用它們,而普通是很難應用這些技術來解決自己的商業問題。 楊順生:我們是一家真正經營資料倉儲產品的企業,從我們與國內企業接觸的來看,資料倉儲技術在中國沒能很好發展起來,主要有以下幾方面原因:第一,中國的資訊化基礎裝置相對不太完善,例如目前行業的計費資料非常分散,計費工具就有40~50種,資料採集都是各搞各的,為今後的分析帶來許多技術上的困難。第二,企業的競爭意識和服務意識還不夠強,對於決策分析的需求還不那麼迫切,由於企業沒有機會實施資料倉儲,因而也相應造成這方面技術人才缺乏的現象。第三,資料倉儲是一個資料共享的系統,不同層面的人從中得到的資訊會大不一樣,它對企業決策是一個很好的工具,但目前中國企業沒有建立起一個管理機制來推動資料的共享,不論是對人的能力、企業的組織制度還是資料質量都沒有一個連續的管理機制,要在這樣的基礎之上建立好用的資料分析是非常困難的。 祁國輝:實際上,在國外市場競爭非常激烈的環境下,每個商場為了自身的生存,已經想盡了辦法,很多能夠被人工發現的規律早就發現了,在這種情況下,使用資料探勘技術來解決問題是一個很正常的想法。但是資料探勘工具並不能直接告訴決策者應該把啤酒和尿布擺在一起賣。國內企業有很多實施了資料倉儲,但結果大多不盡如人意,其關鍵的原因在於,建設資料倉儲時一定要先確認為什麼要投資資料倉儲?要利用資料倉儲解決什麼問題?資料倉儲要達到什麼目的才可以告一段落? 否則做完資料倉儲還不知道該怎樣來用,如何評價其成功與否。其次,資料倉儲不是那種買來就可以使用的產品,事實上,資料倉儲更像一個過程,一個使用者逐步認識自己、提高自己的過程。第三,資料倉儲不僅要反映出企業的現狀,而且還要依靠使用者做出最終的決策。總之,國內資料倉儲不太成功的原因除了使用者的應用水平、業務管理水平有待提高外,資料倉儲產品價格居高不下的原因也多多少少影響到其在國內的順利推廣。 陳道斌:我本人是從事資訊分析方面工作的,對於為什麼要藉助資料倉儲也正在展開一些研究。作為使用者我感到,銀行業最需要資料倉儲技術,也最應該大力發展資料倉儲技術。近幾年國內幾大銀行都在這方面進行了一些嘗試,然而迄今為止失敗者多,成功者少。其中最主要的原因就是許多銀行在建立資料倉儲系統時,對系統所要實現的功能定位不明確。一個資料倉儲系統應明顯區別於業務處理系統,因為業務系統的要求往往是響應和介面簡單等。而資料倉儲與業務系統並不是平行的關係,它應該是基於所有業務系統之上的,對業務資訊進行採集、分析、整理和釋出等,應該是一個穩定的、帶有時間引數的資料集合。資料倉儲技術本身並沒有新的內容,它是管理科學、電腦科學、科學和分析手段的大融合。 資料倉儲技術好用嗎? 主持人:資料倉儲應用不理想是否存在技術上的原因?使用者的層次與資料倉儲前端工具之間是否存在矛盾? 孟曉峰:在資料倉儲的三個概念中,資料倉儲是企業進行資料分析的基礎,它的主要工作是將資料庫中的原始資料進行歸納整理,聚整合一個可供高層次使用的資料集合。在資料倉儲的基礎上有兩類分析工具,一類是做分析型工作的OLAP,另一類是做預測型工作的資料探勘。資料探勘概念的提出,是希望發現像“啤酒和尿布”這樣具有關聯性的規律。但目前這套技術體系,無論在中國還是在世界其他國家,應用都受到一定製約,最主要的原因是,這套技術還沒有達到資料庫技術的成熟度和易用性。但目前看來,所有產品的可用性都還值得懷疑,因為如果你不是一個資料庫專家、統計學專家以及人工智慧專家,你將很難用好這樣的分析工具。目前市場上的資料倉儲產品都是基於一個通用的技術平臺而設計的,這種產品雖然能夠解決不同使用者的分析需求,但它沒有將特殊領域的商業邏輯與資料倉儲技術整合起來,因而分析效果不可能達到峰值。另一個技術瓶頸是目前各種演算法層出不窮,還沒有經歷一個大浪淘沙的沉澱,而資料庫中的檢索技術經過人們多年的摸索,已經形成幾種固定、成熟的技術模式,這是資料倉儲產品沒能達到資料庫產品實用性的另一個原因,所以說目前資料倉儲技術的發展仍處於積累階段。 陳道斌:工商銀行在建立資料倉儲系統時的統一認識是,在市場上買不到可以直接使用的資料倉儲產品,必須根據自己的業務進行量身定製,必須將自己的資料來源及業務需求理清楚,然後將中間搭橋的工作做好,這個搭橋的工作需要市場上的資料倉儲產品的支援,從一開始就必須注意業務與技術的協調。 祁國輝:由於資料倉儲是從西方國家產生的,它帶著濃厚的西方文化色彩,最典型的是資料倉儲中的報表展現。國外的產品注重的是報表內容,但是中國要求內容和格式一樣重要,甚至有些時候格式比內容更重要,在這一點上,國外的報表工具很難滿足中國使用者的需要。資料倉儲作為一個工具,企業內部每個層次的使用者都可能利用它產生效益,但是真正實現起來,還是存在使用者水平與需求問題,我們不可能要求每個使用者都能夠自已去資料倉儲中獲取資料,而且措施也不允許這樣做。這時,我們需要的是一系列不同的資料倉儲前端工具,而這正是目前所有的資料倉儲產品都缺乏的。目前的產品大多數只提供一種工具,試圖滿足所有人的需求,結果每個人都不滿意。 資料倉儲應用範圍如何? 主持人:哪些行業對資料倉儲的需求較大?目前資料倉儲技術在國內哪些行業應用較好?為什麼? 楊順生:我曾經根據一些假設條件對某些行業和企業實施資料倉儲的成熟度作過分析。在2000年全球財富雜誌500家名單中,有近50%的企業已經實施了企業級資料倉儲或部門級資料集市,我們瞭解到電信、銀行、零售、航空、鐵路、郵政、食品、消費類製造、汽車、醫療、保險等行業是對於資料倉儲技術需求最為強烈的行業。在所有這些實施了資料倉儲的行業中,所佔比例分別是:零售業17家、航空業16家、有線電話15家、行動通訊企業14家、銀行業13家。另外,我們還對目前全球不同行業實施過資料倉儲的企業數量進行了統計:根據國外實施的經驗,我們發現,領導的需求度、資訊科技基礎設施、分析型的應用需要以及競爭的激烈程度這四項因素是影響企業實施資料倉儲進度的關鍵因素。企業規模越大、歷史資料越多,實施資料倉儲的迫切性就越高;零售和製造型企業目前較重視成本控制,會首先使用營運和生產的分析型應用;政府監管部門由於歷史資料採集的困難,實施資料倉儲的速度相對較慢;企業集團總部為加強監管,會採用資料倉儲作為處理和分析大集中的資訊科技手段;受過工商管理學教育的領導,比較重視科學化的決策手段,因此比較支援資料倉儲的建設。 陳道斌:目前在中國金融系統只有工商銀行在資料倉儲的應用方面有所突破,其原因是:首先工商銀行規模較大,客戶群龐大,因此必須對客戶進行深入研究,以實現以客戶為中心的服務模式;其次,早在1999年9月1日,工商銀行就提出將所有業務都集中在北京和上海兩個中心進行處理,實際上解決了建立資料倉儲所必需的資料集中問題;第三,工商銀行有一個最大的優勢,就是已經推行了一套統一開發的綜合業務系統,提供了客戶資訊整合的條件。而從領導支援的角度看,現在的行長是專門研究高技術環境下的商業發展問題的,他對於利用資訊科技發展銀行業務有著獨到的見解,因此工商銀行目前在資料倉儲的第一個專案(客戶關係管理)上已經有了實質性的進展。 怎樣跨過資料倉儲門檻? 主持人:中國資料倉儲市場成熟嗎?對於前面所提到的制約因素,我們能夠提出哪些解決思路?應採取什麼樣的措施和手段來推動中國企業資料倉儲的應用? 祁國輝:這個問題問得好!Gartner Group 曾經有一份資料倉儲市場佔有率的報告,從報告中可以看出,到年,美國的資料倉儲銷售額將佔全世界的58%,亞洲只佔7.5%,不難看出我們的差距。但是目前兩者的技術發展速度相差不多,所以說資料倉儲應用市場在中國還是存在的。我認為惟一的解決辦法是,讓企業直接面向競爭激烈的市場,改變管理思路,這樣很快就會產生需求,看書學拳擊永遠也領悟不到拳王的豐富經驗。 孟曉峰:現在越來越多的公司在建立基於的電子商店,這些商店可以收集到大量的原始資料,因此電子商務成為資料倉儲技術極有前途的應用領域。而如何為電子商務應用提供一套特殊的資料倉儲解決方案,應該比一個通用化的解決方案更能夠為市場所接受,從而跨過資料倉儲應用過程的門檻。現在資料倉儲應用領域有許多定製的需求,使用者急需一種既可以提供資料分析又可以提供客戶個性分析的工具。 楊順生:從先進國家的經驗中我們發現,聯機交易處理系統(OLTP)和企業網兩項資訊化基礎設施是實施資料倉儲的必備條件。競爭環境越激烈就越需要資料倉儲系統,企業需要了解客戶的需求、需要發現經營風險同時還需要進行經營分析和管理,所有這些分析都屬於大資料量的分析,採用傳統的資訊科技將會產生很多侷限性,必須依靠一個TB級的資料倉儲系統才能解決以上問題。資料倉儲是分析型的應用,是解決複雜經營問題最合適的資訊科技。但這些觀點適合中國的企業生態環境嗎?有沒有國內的案例可以支援上述觀點呢?最近上海證券中央登記結算公司和中國民航資訊網路公司已成功地實施了TB級資料倉儲系統,這兩個案例是對中國企業、事業單位實施資料倉儲必要性最有力的論證。 陳道斌:從工商銀行實施資料倉儲的情況看,資料倉儲技術在中國有著極大的發展前景。資料倉儲本身的技術和方法體系有很多,但在建立資料倉儲應用時,還應該以問題為導向而不能以方法為導向,要根據問題尋找產品和工具。在這方面失敗的例子太多了,主要原因就是許多企業是先購買了資料倉儲產品,覺得這個產品很好,一定要將它用起來,然後才開始建立自己的系統,這種做法已經被實踐證明是不可行的。開發資料倉儲應用不能急於求成,希望一次能夠將所有的問題都解決是不可能的。資料倉儲的建設過程要講究方法論,要在一個大的需求下進行,在業務和技術人員很好溝通的情況下,一次解決一個問題。 【記者點評】“槍手”與“槍” 在對話過程中,記者最大的感受就是,因為資料倉儲並不能直接告訴決策者應該把啤酒和尿布擺在一起,所以企業不能將所有的“寶”都壓在資料倉儲上。如果說資料倉儲是一支好“槍”,那麼決策者就應該是“玩槍的人”。 資料倉儲只能夠反映出企業的現狀,最終的決策還是要人來做。資料倉儲中有兩大類的應用,分別是線上分析和資料探勘,線上分析側重於對所有事務進行多角度的展現,而資料探勘則側重於對事務中蘊涵的未知規律進行發現。從業務上看,兩者都可以用來發現和總結規律,一種是透過驗證某些猜想來發現規律,另一種則是透過資料來找尋隱含的未知規律。資料探勘的成功取決於對資料的合理處理及演算法,它並不是對任何規則都能夠去發現的萬能工具,所以使用者對自己的業務越熟悉,就越能夠給資料探勘提供完善的幫助和指導,盲目地使用資料探勘,只能留下對資料探勘技術的遺憾。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10752043/viewspace-989413/,如需轉載,請註明出處,否則將追究法律責任。

相關文章