移動電信資料倉儲設計六環節

shiyihai發表於2007-04-12

環節一:異種資料來源整合
企業在經營分析與決策支援系統的建設時,必須將遺留系統(Legacy System)進行高效全面的整合。由於遺留系統是在企業發展的不同時期建設的,往往缺乏全域性規劃,所以擁有不同的作業系統、不同的資料庫、不同的網路通訊機制等,形成了所謂的“資訊孤島”。
系統中採用異種資料來源企業應用整合介面,來實現對異種資料來源的透明訪問,包括資料來源後設資料訪問及業務運算元據訪問。資料來源分為線上資料來源和離線資料來源,線上資料來源是指允許線上抽取的業務資料來源,如營業資料; 離線資料來源是指不允許直接線上抽取的資料來源,如計費樣單資料就是採用以離線檔案資料格式及FTP方式整合進系統。
對資料來源實現後設資料級的管理,資料來源的連線型別(ODBC、OLEDB、JDBC、Native)、連線字串,以及資料結構資訊都以後設資料的形式儲存於後設資料庫中,透過控制檯對其進行業務語義定義,使使用者對整個企業的資訊系統有了全面的掌握。

環節二:ODS層的設計
運算元據儲存ODS(Operation Data Storage)是一個整合了來自不同資料庫資料的環境。其目的是為終端使用者提供一致的企業資料整合檢視。它可以幫助使用者輕鬆應對跨多個商業功能的操作挑戰,是面向主題的、整合的、近實時的資料儲存。
設計ODS層的目的在於改善了對關鍵運算元據庫的存取,使用者能獲得收益、客戶等主題的企業級完整檢視,有利於更好地通觀全域性。近實時的資料儲存提供了查詢與服務能力,並以更高的效能生成操作報告。設計ODS的核心是實現焦點主題全域性試圖應用,如企業的客戶管理系統,可以建立以客戶為中心的ODS客戶主題檢視,向上層提供高效的服務。而對於話費結算則採取了從綜合結算系統中直接抽取到資料倉儲的方式,抽取週期為結算週期,能完全滿足決策分析的時間窗要求。

環節三:ETL過程的設計
資料抽取、轉換和載入,是資料倉儲實現過程中,資料由資料來源系統向資料倉儲載入的主要方法,整個資料處理過程如下:
資料抽取 從資料來源系統抽取資料倉儲系統所需的資料,資料抽取採用統一的介面,可以從資料庫抽取資料,也可以從檔案抽取。對於不同資料平臺、源資料形式、效能要求的業務系統,以及不同資料量的源資料,可能採用的介面方式不同,為保證抽取效率,減少對生產運營的影響,對於大資料量的抽取,採取“資料分割、縮短抽取週期”的原則,對於直接的資料庫抽取,採取協商介面表的方式,保障生產系統資料庫的安全。
資料轉換 資料轉換是指對抽取的源資料根據資料倉儲系統模型的要求,進行資料的轉換、清洗、拆分、彙總等,保證來自不同系統、不同格式的資料和資訊模型具有一致性和完整性,並按要求裝入資料倉儲。
資料載入 資料載入是將轉換後的資料載入到資料倉儲中,可以採用資料載入工具,也可以採用API程式設計進行資料載入。資料載入策略包括載入週期和資料追加策略,對於電信企業級應用,採用對ETL工具DataStage進行功能封裝,向上提供監控與排程介面的方式。資料載入週期要綜合考慮經營分析需求和系統載入的代價,對不同業務系統的資料採用不同的載入週期,但必須保持同一時間業務資料的完整性和一致性。

環節四:倉庫模型設計
由於經營分析需求的不斷變化,資料倉儲中資料的儲存必須採用主題分域的方式,及儘可能小的業務單元進行資料的組織和儲存,以滿足資料倉儲的靈活性。此外,任何一個資訊系統都具有整體性、結構性、層次性、相對性、可變性,資料倉儲的目標邏輯結構的設計要體現這些特徵。
例如,某電信運營商的業務可以按照不同的主題域分為八類:客戶、賬務、資源、服務、客服、營銷、服務使用、結算。客戶主題包含與客戶相關的基本資訊,如客戶的自然屬性(姓名、年齡、職業等)、分類資訊(現有客戶、潛在客戶、大客戶等)、重要屬性資訊(信用度、忠誠度、消費層次等)。賬務主題中包含了與客戶相關的費用資訊,如明細賬單、綜合賬單、賬本、賬戶、付費記錄、銷賬流水等;資源主題中包含網路資源和服務資源資訊及佔用情況;服務主題包含產品、套餐、資費與優惠規則等的資訊;客服主題包含與客戶服務相關的部門資訊、流程資訊、分類資訊等; 營銷主題包含銷售機會、營銷渠道、促銷活動等相關資訊;服務使用主題描述客戶購買和使用電信服務產品的資訊,包括使用者、服務使用記錄、清單等;結算主題包含結算清單、結算明細賬單、合作服務方等資訊。對於主題的建模採用星型結構,以事實表或概要表加相關維表構成。

環節五:後設資料管理
後設資料(Metadata)是關於資料、操縱資料的程式,以及應用程式的結構、意義的描述資訊,其主要目標是提供資料資源的全面指南。後設資料是描述資料倉儲內資料結構和建立方法的資料,可將其按用途分為兩類:技術後設資料(Technical Metadata)、業務後設資料(Business Metadata)和內聯對映後設資料(Inter-Mapping Metadata)。
技術後設資料是儲存關於資料倉儲系統技術細節的資料,是用於開發和管理資料倉儲的資料,主要包括資料倉儲結構的描述(各個主題的定義,星型模式或雪花型模式的描述定義等)、ODS層的企業資料模型描述(以描述關係表及其關聯關係為形式)、對資料稽核規則的定義、資料集市定義描述與裝載描述(包括Cube的維度、層次、度量以及相應事實表、概要表的抽取規則)。另外,安全認證資料也作為後設資料的一個重要部分進行管理。
業務後設資料從業務角度描述了資料倉儲中的資料,它提供了介於使用者和實際系統之間的語義層,使得不懂計算機技術的業務人員也能夠理解資料倉儲中的資料。業務後設資料包括以下資訊:使用者的業務術語所表達的資料模型、物件名和屬性名;訪問資料的原則和資料來源;系統所提供的分析方法及公式、報表資訊。
內聯對映後設資料(Inter-Mapping Metadata)實現技術後設資料與業務後設資料的層間對映,使得資訊系統的概念模型與物理模型相互獨立,使企業的概念、業務模型重組,以及物理模型的變化相互透明。
內聯對映後設資料從技術上為業務需求驅動、企業資料驅動的雙驅動建設模型提供了重要保證,使資訊系統的建設具有更高的靈活性與適應性(基於元模型資料倉儲建模的過程如圖1所示)。

環節六:專題資料探勘
電信企業在長期資訊化建設過程中積累了大量業務運營資料和業務管理資料,一般的企業資料量已超過TB級。市場的激烈競爭和管理的複雜性,決定了企業需要對客戶關係、市場營銷、產品工程、投資分析等方面的歷史資料進行提取與分析,將資料轉化為有用的資訊。資料探勘一般用於在海量資料集中發現間接、隱藏、新穎的規律,資料探勘技術的優勢在於,透過對資料集進行有限步驟的採集、整理、分析、推理、比較等分析手段,來揭露埋藏資料內部的有用資訊。資料探勘常用的演算法包括:關聯規則、聚類檢測、決策樹、神經網路、遺傳演算法、支援向量機等,在SAS、IM8等資料探勘工具中支援的演算法包括決策樹、聚類分析、神經網路、迴歸分析等。
以電信經營資料分類與預測分析資料探勘專題為例,分類包括客戶分類、網元分類等; 預測包括客戶發展分析與預測、業務量發展分析與預測、客戶流失分析與預測、營銷管理與銷售機會分析與預測、市場競爭分析與預測、大客戶分析與預測等。

[@more@]

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/38542/viewspace-910264/,如需轉載,請註明出處,否則將追究法律責任。

相關文章