大話商業智慧

張傳波(Fireball)發表於2013-10-08

摘要:

商業智慧,英文名字叫Business Intelligence,英文簡稱BI。
BI這詞看上去很神祕,給人很高科技的感覺,但真正瞭解的人不多,又加上某些廠商亂用BI來胡弄人,將好好的BI搞得不成人樣。本文將會為大家分享我的粗淺理解,當然如果你是老鳥,請無視此文!
 
 
什麼是BI?
BI是一個意義很廣的詞,沒有標準的定義,簡單說說我的理解:BI是一個對大量資料進行處理、分析、挖掘的框架,其目的就是希望得到有用的決策依據。
下圖大致展示了這樣的一個框架:
商業智慧
 
該圖由左到右依次劃分為ETL整合資料、資料倉儲建模、建立Cube(資料立方體)、資料呈現四部分。
 
ETL整合資料
ETL三個字母是Extract(資料抽取)、 Transform(轉換)、 Loading(裝載)三個單詞的首字母。我們暫時不必去深究這三個詞的意思,簡單地說就是我們分析資料之前,需要將各處的資料彙總到一個地方,這個過程需要對原來的資料進行處理。
 
資料倉儲建模
在這部分我們見到資料倉儲(Dataware,簡稱DW)、資料集市這些概念,很多書將這兩個概念說得很玄乎,實際上資料倉儲、資料集市只是兩個概念而已,在物理上往往就是一兩個資料庫甚至是資料表而已。資料倉儲,你可以認為就是原資料經過ETL後集中儲存的地方,資料倉儲的儲存結構需要精心設計。而資料集市只是將ETL後的資料分類存放而已,資料集市同樣也需要精心設計儲存結構。
 
建立Cube
我們先溫習一下資料庫儲存的特點,一般來說資料庫設計要儘量避免資料冗餘,這樣可提高資料庫執行的效率也避免了資料不一致的問題。資料庫上有大量的增加、刪除、查詢、修改等操作,要求快和具備實時性,資料庫就是針對這些特點來設計的。資料庫的CRUD操作(Create,Read,Update,Delete),被稱為聯機事務處理OLTP(on-line transaction processing)。
Cube是資料立方體,這是一種特殊的資料儲存結構,它設計主要目的是方便讀取,而不是方便寫入。Cube中存在大量的冗餘資料,以便可以快速地從不同角度、粒度來獲取資料。這種面向資料分析的資料庫操作,被稱為聯機分析處理OLAP(On-Line Analytical Processing)。
Cube是在資料倉儲、資料集市的基礎上建立的,建立Cube時需要指定維度、粒度等內容,設定是雪花型、星型等,這些內容比較複雜,不太熟悉的朋友先暫且瞭解到有這些名詞就OK了,稍後再詳細介紹。
 
資料呈現
建立資料倉儲、資料集市、Cube,其目的有兩:
1.為查詢做好準備。
2.就是為資料探勘做好準備。
市面上有很多做報表的工具,功能看上去很強大,能做柱狀圖、餅圖等等,並且還戴上BI的帽子。其實這些工具並不是完整的BI工具,它們只做到資料展示這層而已。資料倉儲、資料集市建好後,可用普通的SQL語句進行查詢,而對於Cube,可用Cube專用的查詢語句進行查詢。
資料探勘英文叫Data mining,那什麼是資料探勘呢?有很多說法,說說我的理解:是指用某些方法和工具,對資料進行分析,發現隱藏規律的一種方法。
資料探勘有很多方法,如關聯、聚類、分類、迴歸、序列分析、偏差分析等,這些內容都比較深奧。關於資料探勘的詳細內容,稍後我會再分享一篇文章。這裡只需要知道,資料探勘比一般的SQL查詢不知道要強大多少倍,能得到超乎你想像的結果。
 
BI工具
BI工具我瞭解的不多,SQL Server 和 Oracle 兩大資料庫工具能完整地支援上述的BI框架,而大量充斥的BI小工具主要針對ETL和報表這兩個層次的。如果大家遇到有人用BI的招牌來兜售軟體,大家應該能識別出該軟體的含金量。BI的核心技術在於資料儲存、資料發掘,這兩者都是高科技的玩意,我好像還沒有見到這方面的國產優秀軟體。
 
BI的應用
BI在國內的應用很多是門面工程,無論是去胡弄人的人還是被胡弄的人,其實都不知道什麼是BI,一旦套上商業智慧、決策分析這樣的帽子,所有人都變成穿上“皇帝新衣”的人了。
要真正理解BI,關鍵一層是理解資料探勘,熟悉各種資料探勘演算法的原理、特點和用途,運用這些知識來思考如何挖掘現存的資料。
舉幾個例子:
例1:據說若干年前麥當勞是沒有套餐的,後來麥當勞對產品的銷售資料進行分析,發現購買了漢堡包和薯條的客戶,有70%以上的機率會購買可樂,所以麥當勞就將這三樣東西捆綁來套餐來賣,結果銷量大增。
例2:我經常在噹噹網購書,該網站很會推銷,我看某本書時,它還會列出我可能感興趣的書,很多時候我又忍不住去點了那些書看看,結果到了那本書的介紹頁面,它又列出我其它可能感興趣的書。這個“推薦”演算法還是有一定技術含量的,這功能背後很可能應用了資料探勘技術。
BI是很高技術含量的活,要在各行各業中應用,需要我們切實掌握BI的知識特別是資料探勘的知識,為客戶提供優秀的解決方案。
 
 
 

作者:張傳波

創新工場創業課堂講師

軟體研發管理資深顧問

《火球——UML大戰需求分析》作者

www.umlonline.org 創辦人

 

相關文章