大資料架構和模式(二)——如何知道一個大資料解決方案是否適合您的組織

developerWorks 中國發表於2015-01-31

本文介紹一種評估大資料解決方案的可行性的基於維度的方法。通過回答探索每個維度的問題,您可以通過自己對環境的瞭解來確定某個大資料解決方案對您是否適合。仔細考慮每個維度,就會發現有關是否到了改進您的大資料服務的時候的線索。

相關文章:

大資料架構和模式(一)——大資料分類和架構簡介

大資料架構和模式(三)——理解大資料解決方案的架構層

大資料架構和模式(四)——瞭解用於大資料解決方案的原子模式和複合模式

大資料架構和模式(五)——對大資料問題應用解決方案模式並選擇實現它的產品

簡介

在確定投資大資料解決方案之前,評估可用於分析的資料;通過分析這些資料而獲得的洞察;以及可用於定義、設計、建立和部署大資料平臺的資源。詢問正確的問題是一個不錯的起點。使用本文中的問題將指導您完成調查。答案將揭示該資料和您嘗試解決的問題的更多特徵。

儘管組織一般情況對需要分析的資料型別有一些模糊的理解,但具體的細節很可能並不清晰。畢竟,資料可能具有之前未發現的模式的關鍵,一旦識別了一種模式,對額外分析的需求就會變得很明顯。要幫助揭示這些未知的未知資訊,首先需要實現一些基本用例,在此過程中,可以收集以前不可用的資料。構建資料儲存庫並收集更多資料後,資料科學家就能夠更好地確定關鍵的資料,更好地構建將生成更多洞察的預測和統計模型。

組織可能也已知道它有哪些資訊是不知道的。要解決這些已知的未知,組織首先必須與資料科學家合作,識別外部或第三方資料來源,實現一些依賴於此外部資料的用例。

本文首先嚐試回答大多數 CIO 在實施大資料舉措之前通常會提出的問題,然後,本文將重點介紹一種將幫助評估大資料解決方案對組織的可行性的基於維度的方法。

我的大資料問題是否需要大資料解決方案?

大資料,曾幾何時似乎很少出現

組織多半會選擇以增量方式實現大資料解決方案。不是每個分析和報告需求都需要大資料解決方案。如果對於對大型資料集或來自多個資料來源的臨時報告執行並行處理的專案,那麼可能沒有必要使用大資料解決方案。

隨著大資料技術的到來,組織會問自己:“大資料是否是我的業務問題的正確解決方案,或者它是否為我提供了業務機會?”大資料中是否隱藏著業務機會?以下是我從 CIO 那裡聽到的一些典型問題:

  • 如果我使用大資料技術,可能會獲得何種洞察和 業務價值?
  • 它是否可以擴充我 現有的資料倉儲?
  • 我如何評估 擴充套件當前環境 或採用新解決方案的成本?
  • 對我現有的 IT 治理 有何影響?
  • 我能否 以增量方式實現 大資料解決方案?
  • 我需要掌握哪些 具體的技能 來理解和分析構建和維護大資料解決方案的需求?
  • 我的 現有企業資料 能否用於提供業務洞察?
  • 來自各種來源的 資料的複雜性 在不斷增長。大資料解決方案對我有幫助嗎?

維度可幫助評估大資料解決方案的可行性

為了回答這些問題,本文提出了一種依據下圖中所示的維度來評估大資料解決方案的可行性的結構化方法。

圖 1. 評估大資料解決方案的可行性時要考慮的維度

該圖顯示了評估大資料解決方案的可行性時要考慮的維度

  • 來自可通過分析資料獲得的洞察的業務價值
  • 針對新資料來源和資料使用方式的治理考慮因素
  • 擁有相關技能和贊助商的承諾的人員
  • 捕獲的資料量
  • 各種各樣的資料來源、資料型別和資料格式
  • 生成資料的速度,需要對它執行操作的速度,或者它更改的速度
  • 資料的真實性,或者資料的不確定性和可信賴性

對於每個維度,我們都給出了一些關鍵問題。依據業務上下文,為每個維度分配一個權重和優先順序。評估會因業務案例和組織的不同而有所不同。您可以考慮在與相關的業務和 IT 利益相關者召開的一系列研討會中探討這些問題。

業務價值:可通過大資料技術獲取何種洞察?

許多組織想知道,他們在尋找的業務洞察能否通過大資料解決方案解決。沒有權威的指南能夠用來定義可從大資料獲取的洞察。具體場景需要由組織識別,而且這些場景在不斷演變。在確定和識別在實現後會給企業帶來重大價值的業務用例和場景的過程中,資料科學家起著至關重要的作用。

資料科學家必須能夠理解關鍵績效指標,對資料應用統計演算法和複雜演算法來獲得一個用例列表。用例因行業和業務不同而有所不同。研究市場競爭對手的行動、發揮作用的市場力量,以及客戶在尋找什麼,會很有幫助。下表給出了來自各行各業的用例示例。

表 1. 來自各行各業的示例用例
行業 示例用例
電子商務和線上零售 電子零售商(比如 eBay)在不斷建立針對性產品來提高客戶終生價值 (CLV);提供一致的跨渠道客戶體驗;從銷售、營銷和其他來源收穫客戶線索;並持續優化後端流程。
  • 推薦引擎:通過基於對交叉銷售的預測分析來推薦補充性產品,增加平均訂單大小。
  • 跨渠道分析:銷售屬性、平均訂單價值和終生價值(例如多少店內購買活動源自特定的推薦、廣告或促銷)。
  • 事件分析:那一系列步驟(黃金路線)得到了想要的結果(例如產品購買或註冊)?
  • “恰當時機的恰當產品” 和 “下一款最佳產品”:結合部署預測模型和推薦引擎,得到自動化的下一款最佳產品和跨多個互動渠道的經調整的互動。
零售和專注於客戶
  • 推銷和市場籃分析
  • 營銷活動管理和客戶忠誠度計劃
  • 供應鏈管理和分析
  • 基於事件和行為的目標
  • 市場和使用者細分
  • 預測分析:在將產品放在貨架上之前,零售商希望預測可能對購買者至關重要的一些因素
金融服務
  • 合規性和監管報告
  • 風險分析和管理
  • 欺詐檢測和安全分析
  • CRM 和客戶忠誠度計劃
  • 信用風險、評分和分析
  • 高速套利交易
  • 交易監管
  • 異常交易模式分析
欺詐檢測 欺詐管理可預測給定交易或客戶帳戶遇到欺詐的可能性,幫助提高客戶帶來的利潤。解決方案將會實時分析交易,生成立即行動建議,這對阻止第三方欺詐、第一方欺詐和帳戶特權的蓄意濫用至關重要。解決方案通常設計用於跨多個行業檢測和阻止各種各樣的欺詐和風險型別,這些型別包括:
  • 信用卡和借記卡欺詐
  • 存款帳戶欺詐
  • 技術欺詐和壞賬
  • 醫療欺詐
  • 醫療補助計劃和醫療保險欺詐
  • 財產和災害保險欺詐
  • 工傷賠償欺詐
  • 保險欺詐
Web 和數字媒體 我們目前處理的許多資料是增多的社交媒體和數字營銷的直接後果。客戶生成一連串可挖掘並投入使用的 “資料廢氣”。
  • 大規模單擊流分析
  • 廣告投放、分析、預測和優化
  • 濫用和單擊欺詐預防
  • 社交圖分析和概要細分
  • 營銷活動管理和忠誠度計劃
公共領域
  • 欺詐檢測
  • 威脅檢查
  • 網路安全
  • 合規性和監管分析
  • 能耗和碳排放管理
健康和生命科學
  • 健康保險欺詐檢測
  • 營銷活動和銷售計劃優化
  • 品牌管理
  • 患者護理質量和程式分析
  • 醫療裝置和藥物供應鏈管理
  • 藥品發現和開發分析
電信
  • 收入保障和價格優化
  • 客戶流失預防
  • 營銷活動管理和客戶忠誠度
  • 呼叫詳細記錄 (CDR) 分析
  • 網路效能和優化
  • 移動使用者位置分析
公用事業 公用事業公司執行大型、昂貴、複雜的系統來發電。每個電網包含監視電壓、電流、頻率和其他重要操作特徵的複雜感測器。效率意味著密切關注從感測器傳來的所有資料。公用事業公司現在正利用 Hadoop 叢集來分析分析發電(供應)和電力消耗(需求)資料。智慧儀表的採用導致前所未有的資料流洶湧而來。大多數公用事業公司都未做好充分準備在開啟儀表後分析該資料。
媒體 在有線行業,大型有線運營商(比如 Time Warner、Comcast 和 Cox Communications)每天都可以使用大資料來分析機頂盒資料。可以利用此資料來調整廣告或促銷活動。
雜項
  • Mashup:移動使用者位置和精度目標
  • 機器生成的資料
  • 線上約會:一個領先的線上約會服務使用複雜的分析來度量各個成員之間的相容性,以便建議匹配的商品
  • 線上遊戲
  • 飛機和汽車的預測性維護

潛在的客戶正在社交網路和評論站點上生成大量新資料。在企業內,隨著客戶切換到線上渠道來執行業務和與公司互動,交易資料和 Web 日誌與日俱增。

確定資料的優先順序

首先為企業記憶體在的資料建立一個清單。識別內部系統和應用程式中存在的資料以及從第三方傳入的資料。如果業務問題可使用現有資料解決,那麼有可能不需要使用來自外部來源的資料。

請考慮構建一個大資料解決方案的成本,並權衡它與帶給業務部門的新洞察的價值。

在有關現有客戶的歸檔資料的上下文中分析此新資料時,業務人員將獲得對新業務機會的洞察。

主要滿足以下條件,大資料可提供可行的解決方案:

  • 從資料中開發的洞察所生成的價值,值得在大資料解決方案中投入的資本成本
  • 面向客戶的場景可證明來自洞察的潛在價值

評估通過大資料解決方案獲取的業務價值時,請考慮您當前的環境是否可擴充套件並權衡此投資的成本。

我當前的環境能否擴充套件?

詢問以下問題,確定您能否擴充現有的資料倉儲平臺?

  • 當前的資料集是否非常大,是否達到了 TB 或 PB 數量級?
  • 現有的倉庫環境是否包含生成或獲取的所有 資料的儲存庫?
  • 是否有大量冷資料或人們很少接觸的資料未分析,可以通過分析這些資料獲得業務洞察?
  • 您是否需要丟棄資料,因為無法儲存或處理它?
  • 您是否希望能夠在複雜且大量的資料上執行資料探索?
  • 您是否希望能夠對非運算元據執行分析?
  • 您是否有興趣使用資料執行傳統和新型別的分析?
  • 您是否試圖延遲對現有資料倉儲的升級?
  • 您是否在尋求途徑降低執行分析的總體成本?

如果任何這些問題的答案是 “是”,那麼您就可以探索擴充現有資料倉儲環境的方式。

擴充套件我當前的環境的成本是多少?

擴充套件現有資料倉儲平臺或 IT 環境與實現大資料解決方案的成本和可行性取決於:

  • 現有工具和技術
  • 現有系統的可伸縮性
  • 現有環境的處理能力
  • 現有平臺的儲存能力
  • 執行的治理和策略
  • 現有 IT 應用程式的異構性
  • 組織中存在的技術和業務技能。

它還依賴於將從新資料來源收集的資料量、業務用例的複雜性、處理的分析複雜性,以及獲取資料和擁有恰當技能集的人員的成本。現有的資源池能否開發新的大資料技能,或者是否可從外部僱傭擁有稀缺技能的人員?

請注意,大資料舉措會對其他正在實施的專案產生影響。從新的來源獲取資料具有很高的成本。您首先應當識別系統和應用程式內部存在的資料,以及目前收到的第三方資料,這一點很重要。如果業務問題可以使用現有資料解決,那麼有可能不需要使用來自外部來源的資料。

在生成新工具和應用程式之前,請評估組織的應用程式組合。例如,一個普通的 Hadoop 平臺可能無法滿足您的需求,您可能必須購買專業的工具。或者相對而言,Hadoop 的商業版本對當前用例而言可能很昂貴,但可能需要用作長期投資來支援一個戰略性的大資料平臺。考慮大資料工具和技術需要的基礎架構、硬體、軟體和維護的成本。

對資料的治理和控制:對現有的 IT 治理有何影響?

在決定是否實現一個大資料平臺時,組織可能會檢視新資料來源和新的資料元素型別,而這些資訊當前的所有權尚未明確定義。一些行業制度會約束組織獲取和使用的資料。例如,在醫療行業,通過訪問患者資料來從中獲取洞察是否合法?類似的規則約束著所有行業。除了 IT 治理問題之外,組織的業務流程可能也需要重新定義和修改,讓組織能夠獲取、儲存和訪問外部資料。

請在您的情況的上下文中考慮以下治理相關問題:

  • 安全性和隱私— 為了與當地法規一致,解決方案可以訪問哪些資料?可以儲存哪些資料?哪些資料應在移動過程中加密?靜止資料呢?誰可以檢視原始資料和洞察?
  • 資料的標準化— 是否有標準約束資料?資料是否具有專用的格式?是否有部分資料為非標準格式?
  • 資料可用的時段— 資料在一個允許及時採取操作的時段是否可用?
  • 資料的所有權— 誰擁有該資料?解決方案是否擁有適當的訪問權和許可權來使用資料?
  • 允許的用法:允許如何使用該資料?

我能否增量地實現大資料解決方案?

大資料解決方案可以採用增量方式實現。明確地定義業務問題的範圍,並以可度量的方式設定預期的業務收入提升,這樣做會很有幫助。

對於基礎業務案例,請仔細列出問題的範圍和解決方案帶來的預期收益。如果該範圍太小,業務收益將無法實現,如果範圍太大,獲得資金和在恰當的期限內完成專案就會很有挑戰性。在專案的第一次迭代中定義核心功能,以便能夠輕鬆地贏得利益相關者的信任。

人員:是否已有恰當的技能並調整了合適的人員?

需要特定的技能來理解和分析需求,並維護大資料解決方案。這些技能包括行業知識、領域專長,以及有關大資料工具和技術的技術知識。擁有建模、統計、分析和數學方面的專業經驗的資料科學家,是任何大資料舉措成功的關鍵。

在實施一個新的大資料專案之前,確保已安排了合適的人員:

  • 您是否獲得利益相關者和其他願意投資該專案的業務贊助者的支援?
  • 是否擁有熟悉該領域、能分析大量資料、而且能識別從資料生成有意義且有用的洞察的途徑的資料科學家?

是否擁有可用於獲取洞察的現有資料?

所有組織都擁有大量未用於獲取業務洞察的資料。這些資料包括日誌檔案、錯誤檔案和來自應用程式的運算元據。不要忽略此資料,它是寶貴資訊的潛在來源。

資料複雜性是否在增長?

查詢資料複雜性增長的線索,尤其是在資料量、種類、速度和真實性方面。

資料量是否已增長?

如果滿足以下條件,您可能希望考慮大資料解決方案:

  • 資料大小達到 PB 和 EB 級,而且在不久的將來,它們可能增長到 ZB 級別。
  • 這一資料量給使用傳統方法(比如關聯式資料庫引擎)儲存、搜尋、共享、分析和視覺化資料帶來的技術和經濟挑戰。
  • 資料處理目前可使用可用硬體上的大規模並行處理能力。

資料種類是否已增多?

如果滿足以下條件,各種各樣的資料可能都需要大資料解決方案:

  • 資料內容和結構無法預期或預測。
  • 資料格式各不相同,包括結構化、半結構化和非結構化資料。
  • 使用者和機器能夠以任何格式生成資料,例如:Microsoft® Word 檔案、Microsoft Excel® 電子表格、Microsoft PowerPoint 簡報、PDF 檔案、社交媒體、Web 和軟體日誌、電子郵件、來自相機的照片和視訊、資訊感知的移動裝置、空中感知技術、基因組和醫療記錄。
  • 以前沒有為了獲得洞察而被挖掘的資料來源不斷地在產生新的資料型別。
  • 領域實體在不同的上下文中具有不同的含義。

資料的速度是否已增長或改變?

考慮您的資料是否:

  • 在快速更改,必須立即響應
  • 擁有過多的傳統技術和方法,它們不再足以實時處理傳入的資料

您的資料是否值得信賴?

如果滿足以下條件,那麼請考慮使用大資料解決方案:

  • 資料的真實性或準確性未知。
  • 資料包含模糊不清的資訊。
  • 不清楚資料是否完整。

如果資料的量、種類、速度或真實性具有合理的複雜性,那麼有可能會適合地採用大資料解決方案。對於更復雜的資料,需要評估與實現大資料解決方案關聯的任何風險。對於不太複雜的資料,則應該評估傳統的解決方案。

是否所有大資料都存在大資料問題?

不是所有大資料情形都需要大資料解決方案。請在市場中尋找線索。競爭對手在做什麼?哪些市場力量在發揮作用?客戶想要什麼?

使用本文中的問題,幫助確定大資料解決方案是否適合於您的業務情形和您需要的業務洞察。如果認為是時候實施大資料專案了,請閱讀下一篇文章,其中會介紹如何定義一個邏輯架構,而且將會確定您的大資料解決方案需要的關鍵元件。

相關文章