國外學者對商業智慧的研究 (zt)

tonykorn97發表於2007-02-11

1 Howard Dresner對商業智慧的定義

商業智慧(Business Intelligence,簡稱BI)的概念最早是Gartner GroupHoward Dresner1996年提出來的。當時將商業智慧定義為一類由資料倉儲(或資料集市)、查詢報表、資料分析、資料探勘、資料備份和恢復等部分組成的、以幫助企業決策為目的技術及其應用。當時的預測說:到2000年,資訊民主(注:指組織內資訊共享的無差別性)將在具有前瞻性思維的企業中浮現。藉助商業智慧,員工、諮詢員、客戶、供應商以及公眾能夠有效地運用資訊。其實,商業智慧所涉及的技術與應用,在Howard Dresner命名之前就有,起初被稱為主管資訊系統(EIS),在羽化成商業智慧之前叫決策支援系統(DSS)。


2 Eric ThomsenOLAP及商業智慧的論斷

Eric ThomsenDSS Lab的首席科學家,他提出了基於決策支援系統的OLAP的設計和實現。OLAP是建立商業智慧系統的重要技術,其技術的應用非常廣泛。Eric Thomsen在其代表作《OLAP解決方案:建立多維資訊系統(OLAP Solutions: Building Multidimensional Information Systems)》第二版中有關於一些相關概念的論述:資料倉儲(DW/決策支援系統(DSS/商業智慧(BI/聯機分析處理(OLAP/基於分析的面向決策的處理(ABDOP——資料倉儲(DW)的焦點還是十分有限的。決策支援這個術語是以終端使用者為中心的,在談到OLAP和資料倉儲時作為ABDOP的補充。從這以後,資料倉儲和決策支援的範圍有了很大的擴充套件,但是還沒有達到ABDOP的全部內容。商業智慧也開始流行起來,也覆蓋了相同的範圍,不過一般來說,它更加關注於終端使用者資訊獲取的問題。經常看到人們將資料倉儲和決策支援或者商業智慧聯合起來指代所稱的ABDOP的全部範圍,卻沒有真正給整個範圍起一個名字。

Eric Thomsen採用蘇格拉底啟發式方式講解和論述了決策的階段,從而闡述了商業智慧(或其平行概念)的研究內容和方法:

認為,透過觀察如何證實一個被挑戰的決策是否正確,就可以很好地瞭解到指定決策究竟需要些什麼資訊。

決策的目標是什麼?如果沒有目標,任何決策都是沒有差別的。在尋求最優決策的過程中,可能用到的演算法包括線性程式設計和蒙特卡洛模擬協助在各種選擇、外部因素、偶然事件中進行決策思考的工具就是決策分析工具。

如何證明決策可以達到預定的目標?惟一能夠證實決策是正確的方法是顯示一些預測結果。進行預測用到的工具包括了統計分析和資料探勘。

預測又是從何而來?這時候需要一個推理的過程。預測是模式、關係、解釋的延伸。他們需要至少一個用來延伸的假設。所有的預測都需要兩個描述和一個假設。用於發現模式的演算法包括迴歸、決策樹、聚類、關聯規則、神經元網路,用於發現模式的工具也是統計和資料探勘。

如何捍衛描述?如果描述是不正確的,不管推理如何,預測都將是錯誤的。因此,在原始資料收集過程中應該採用最好的質量控制方法。

派生資料是否正確?如果原始資料和推理邏輯都是正確的,預測還是錯誤的,問題就出在派生資料上。派生資料包括了各種彙總、分配、差別、比率、排序和乘積,例如每週的產品銷售量、每天的入庫總額、產品的總成本、部門收入、管理費用、銷售產品的成本、市場份額、產量和利潤等。OLAP工具所關注的就是建立派生變數。

3 Tom Soukup Ian Davidson對商業智慧和視覺化資料探勘的闡述

在《視覺化資料探勘:資料視覺化和資料探勘的技術與工具(Visual Data Mining : Techniques and Tools for Data Visualization and Mining)》中指出:

商業智慧解決方案將業務資料轉換成明確的、基於事實的、能夠執行的資訊,並且使得業務人員能夠發現客戶趨勢,建立客戶忠誠度,增強與供應商的關係,減少金融風險,以及揭示新的銷售商機。商業智慧的目標是瞭解變化的意義——從而理解甚至預見變化本身。它使你能夠訪問當前的、可靠的和易消化的資訊,並能夠從各個側面及不同的維度靈活地瀏覽資訊和建立模型。商業智慧方案回答的是如果……怎麼辦(What if …之類的問題,而不是發生了什麼?(What happened ?。簡而言之,商業智慧解決方案是提高和維持競爭優勢的一條有效的條件。

資料視覺化和資料探勘是兩種技術,它們常常被常用來建立和部署成功的商業智慧解決方案。透過應用視覺化和資料探勘技術,業務人員能夠充分地探索業務資料,從而發現潛在的、以前未知的趨勢、行為和異常。

提出了一套行之有效的建立資料視覺化和執行視覺化資料探勘的方法,包括8個步驟:①驗證和規劃資料視覺化與資料探勘專案;②識別最重要的業務問題;③選擇資料集;④轉換資料集;⑤驗證資料集;⑥選擇視覺化或挖掘工具;⑦分析視覺化或挖掘模型;⑧驗證和展示視覺化或挖掘模型。

4Bill Inmon對資料倉儲的定義

資料倉儲之父Bill Inmon1991年出版的“Building the Data Warehouse”一書中所提出的定義被廣泛接受——資料倉儲(Data Warehouse)是一個面向主題的(Subject Oriented)、整合的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的資料集合,用於支援管理決策(Decision Making Support)

面向主題。操作型資料庫的資料組織面向事務處理任務,各個業務系統之間各自分離,而資料倉儲中的資料是按照一定的主題域進行組織的。

整合的。資料倉儲中的資料是在對原有分散的資料庫資料抽取、清理的基礎上經過系統加工、彙總和整理得到的,必須消除源資料中的不一致性,以保證資料倉儲內的資訊是關於整個企業的一致的全域性資訊。

相對穩定的。資料倉儲的資料主要供企業決策分析之用,所涉及的資料操作主要是資料查詢,一旦某個資料進入資料倉儲以後,一般情況下將被長期保留,也就是資料倉儲中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、重新整理。

反映歷史變化。資料倉儲中的資料通常包含歷史資訊,系統記錄了企業從過去某一時點(如開始應用資料倉儲的時點)到目前的各個階段的資訊,透過這些資訊,可以對企業的發展歷程和未來趨勢做出定量分析和預測。

企業資料倉儲的建設,是以現有企業業務系統和大量業務資料的積累為基礎。資料倉儲不是靜態的概念,只有把資訊及時交給需要這些資訊的使用者,供他們做出改善其業務經營的決策,資訊才能發揮作用,資訊才有意義。而把資訊加以整理歸納和重組,並及時提供給相應的管理決策人員,是資料倉儲的根本任務。因此,從產業界的角度看,資料倉儲建設是一個工程,是一個過程。

5 E.F. CoddOLAP的貢獻

60 年代末,E.F. Codd 所提出的關係資料模型促進了關聯式資料庫及聯機事務處理(OLTP )的發展。資料不再以檔案方式同應用程式捆綁在一起,而是分離出來,以關係表方式供大家共享。資料量從80年代的兆位元組及千兆位元組過渡到現在的兆兆位元組和千兆兆位元組,同時使用者的查詢需求也越來越複雜,涉及的己不僅是查詢或操縱一張關係表中的一條或幾條記錄,而且要對多張表中千萬條記錄的資料進行資料分析或資訊綜合。關聯式資料庫系統已不能全部滿足這一要求。這兩類應用操作型應用和分析型應用,特別是在效能上難以兩全,儘管為了提高效能,人們常常在關聯式資料庫中放寬了對冗餘的限制,引入了統計及綜合資料,但這些統計綜合資料的應用邏輯卻是分散雜亂的,非系統化的,因此分析功能有限,不靈活,維護困難。在國外,不少軟體廠商採取了發展其前端產品來彌補RDBMS 支援的不足。它們透過專門的資料綜合引擎,輔之以更加直觀的資料訪問介面。力圖統一分散的公共應用邏輯,在短時間內相應非資料處理專業人員的複雜查詢要求。1993年,E.F. Codd 將這類技術定義為“OLAP ”。鑑於Codd 關聯式資料庫之父的影響。OLAP 的提出引起了很大反響,OLAP 作為一類產品同OLAP 明顯區別開來。

聯機分析處理專門設計用於支援複雜的分析操作,側重對決策人員和高層管理人員的決策支援,可以應分析人員要求快速、靈活地進行大資料量的複雜查詢處理,並且以一種直觀易懂的形式將查詢結果提供決策人員,以便他們準確掌握企業(公司)的經營狀況,瞭解市場需求,制訂正確方案,增加效益。

6、 國外學者對資料探勘的定義及其研究方法的概括

Gartner Group 資料探勘是透過仔細分析大量資料來揭示有意義的新的關係、模式和趨勢的過程。它使用模式認知技術、統計技術和數學技術。

The META GroupAaron Zornes 資料探勘是一個從大型資料庫中提取以前不知道的可操作性資訊的知識挖掘過程。

SAS研究所:在大量相關資料基礎之上進行資料探索和建立相關模型的先進方法

Bhavani 使用模式識別技術、統計和數學技術,在大量的資料中發現有意義的新關係、模式和趨勢的過程

Hand et al 資料探勘就是在大型資料庫中尋找有意義、有價值資訊的過程

Fayyad :資料探勘是一個確定資料中有效的,新的,可能有用的並且最終能被理解的模式的重要過程。

Zekulin :資料探勘是一個從大型資料庫中提取以前未知的,可理解的,可執行的資訊並用它來進行關鍵的商業決策的過程。

Ferruzza :資料探勘是用在知識發現過程,來辯識存在於資料中的未知關係和模式的一些方法。

Jonn :資料探勘是發現資料中有益模式的過程。

Parsay :資料探勘是我們為那些未知的資訊模式而研究大型資料集的一個決策支援過程。

資料探勘的功能大致有兩種,預測檢驗功能和描述功能。資料探勘的任務主要有4項:①概念描述,即對資料進行濃縮,給出某類物件內涵的緊湊表示。②發現關聯規則,透過分析給出兩個或多個變數間存在的相關性規律。③聚類,即簇聚同類物件,使在抽象空間中屬於同一類別的個體距離儘可能小,反之儘量大。④偏差檢測,尋找觀察結果與參照值間的差別,這些偏差往往包含很多潛在有意義的知識資訊。

應用較普遍的資料探勘與知識發現方法有:

遺傳演算法。其基本原理是:類比生物進化過程,每一代同時存在許多不同的種群個體(染色體)。這些染色體的適應性以適應性函式f(x)表徵,染色體的保留與淘汰取決於它們對環境的適應能力,優勝劣汰。適應性函式f(x)的構成與目標函式密切相關,往往是目標函式的變種。?遺傳運算元主要有3種:選擇(複製)運算元、交叉(重組)運算元和變異(突變)運算元。遺傳演算法可起到產生優良後代的作用,經過若干代遺傳,將會得到滿足要求的後代(問題的解)

粗集方法。其基本原理是:將資料庫中的行元素看成物件,將列元素看成屬性。設R為等價關係,定義為不同物件在某個(或幾個)屬性上取值相同。那些滿足等價關係的物件構成集合,稱為該等價關係R的等價類。設E為條件屬性上的等價類,設Y為決策屬性上的等價類,則E Y存在3種情況:Y包含E稱為下近似;YE的交非空,稱為上近似;YE的交為空,稱為無關。對下近似建立確定性規則,對上近似建立不確定規則(含可信度),對無關情況則不存在規則。

決策樹方法。決策樹方法是以資訊理論原理為基礎,利用資訊理論中互資訊(資訊增益)尋找資料庫中具有最大資訊量的欄位,建立決策樹的一個結點。然後再根據欄位的不同取值建立樹的分支,在每個分支集中重複建立樹的下層結點和分支。這種方法實際上是依循資訊理論原理對資料庫中存在的大量資料進行資訊量分析,在計算資料特徵的互資訊或通道容量的基礎上提取出反映類別的重要特徵。

神經網路方法。其原理是:模擬人腦的神經元結構,以MP模型和HEBB學習規則建立起前饋式網路、反饋式網路和自組織網路3大類多種神經網路模型。基於神經網路的資料探勘工具對於非線性資料具有快速建模能力,其挖掘的基本過程是先將資料聚類,然後分類計算權值,神經網路的知識體現在網路連線的權值上。神經網路方法用於非線性資料和含噪聲的資料時具有更大的優越性,比較適合於市場資料庫的分析和建模,透過對市場資料庫中行業資料的精密分析,為市場人員提供顧客、使用者、市場狀況和市場走勢等方面的分析結果。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/312079/viewspace-245610/,如需轉載,請註明出處,否則將追究法律責任。

相關文章