大資料分類和架構簡介

一次次失望後的平靜發表於2018-11-29

概述

大資料可通過許多方式來儲存、獲取、處理和分析。每個大資料來源都有不同的特徵,包括資料的頻率、量、速度、型別和真實性。處理並儲存大資料時,會涉及到更多維度,比如治理、安全性和策略。選擇一種架構並構建合適的大資料解決方案極具挑戰,因為需要考慮非常多的因素。

這個 “大資料架構和模式” 系列提供了一種結構化和基於模式的方法來簡化定義完整的大資料架構的任務。因為評估一個業務場景是否存在大資料問題很重要,所以我們包含了一些線索來幫助確定哪些業務問題適合採用大資料解決方案。

從分類大資料到選擇大資料解決方案

如果您花時間研究過大資料解決方案,那麼您一定知道它不是一個簡單的任務。本系列將介紹查詢滿足您需求的大資料解決方案所涉及的主要步驟。

我們首先介紹術語 “大資料” 所描述的資料型別。為了簡化各種大資料型別的複雜性,我們依據各種引數對大資料進行了分類,為任何大資料解決方案中涉及的各層和高階元件提供一個邏輯架構。接下來,我們通過定義原子和複合分類模式,提出一種結構來分類大資料業務問題。這些模式有助於確定要應用的合適的解決方案模式。我們提供了來自各行各業的示例業務問題。最後,對於每個元件和模式,我們給出了提供了相關功能的產品。

第 1 部分將介紹如何對大資料進行分類。本系列的後續文章將介紹以下主題:

  • 定義大資料解決方案的各層和元件的邏輯架構
  • 理解大資料解決方案的原子模式
  • 理解用於大資料解決方案的複合(或混合)模式
  • 為大資料解決方案選擇一種解決方案模式
  • 確定使用一個大資料解決方案解決一個業務問題的可行性
  • 選擇正確的產品來實現大資料解決方案

依據大資料型別對業務問題進行分類

業務問題可分類為不同的大資料問題型別。以後,我們將使用此型別確定合適的分類模式(原子或複合)和合適的大資料解決方案。但第一步是將業務問題對映到它的大資料型別。下表列出了常見的業務問題併為每個問題分配了一種大資料型別。

表 1. 不同型別的大資料業務問題

業務問題 大資料問題 描述
公用事業:預測功耗 機器生成的資料

公用事業公司推出了智慧儀表,按每小時或更短的間隔定期測量水、天然氣和電力的消耗。這些智慧儀表生成了需要分析的大量間隔資料。

公用事業公司還執行著昂貴而又複雜的大型系統來發電。每個電網包含監視電壓、電流、頻率和其他重要操作特徵的複雜感測器。

要提高操作效率,該公司必須監視感測器所傳送的資料。大資料解決方案可以使用智慧儀表分析發電(供應)和電力消耗(需求)資料。

電信:客戶流失分析 Web 和社交資料

交易資料

電信運營商需要構建詳細的客戶流失模型(包含社交媒體和交易資料,比如 CDR),以跟上競爭形勢。

流失模型的值取決於客戶屬性的質量(客戶主資料,比如生日、性別、位置和收入)和客戶的社交行為。

實現預測分析戰略的電信提供商可通過分析使用者的呼叫模式來管理和預測流失。

市場營銷:情緒分析 Web 和社交資料

營銷部門使用 Twitter 源來執行情緒分析,以便確定使用者對公司及其產品或服務的評價,尤其是在一個新產品或版本釋出之後。

客戶情緒必須與客戶概要資料相整合,才能得到有意義的結果。依據客戶的人口統計特徵,客戶反饋可能有所不同。

客戶服務:呼叫監視 人類生成的

IT 部門正在依靠大資料解決方案來分析應用程式日誌,以便獲取可提高系統效能的洞察。來自各種應用程式供應商的日誌檔案具有不同的格式;必須將它們標準化,然後 IT 部門才能使用它們。

零售:基於面部識別和社交媒體的個性化訊息 Web 和社交資料

生物識別

零售商可結合使用面部識別技術和來自社交媒體的照片,根據購買行為和位置向客戶提供個性化的營銷資訊。

此功能對零售商忠誠度計劃具有很大的影響,但它具有嚴格的隱私限制。零售商需要在實現這些應用程式之前進行適當的隱私披露。

零售和營銷:移動資料和基於位置的目標 機器生成的資料 

交易資料

零售商可根據位置資料為客戶提供特定的促銷活動和優惠券。解決方案通常旨在在使用者進入一個店鋪時檢測使用者的位置,或者通過 GPS 檢測使用者的位置。

位置資料與來自社交網路的客戶偏好資料相結合,使零售商能夠根據購買歷史記錄針對性地開展線上和店內營銷活動。通知是通過移動應用程式、SMS 和電子郵件提供的。

FSS、醫療保健:欺詐檢測 機器生成的資料 

交易資料 

人類生成的

欺詐管理可預測給定交易或客戶帳戶遇到欺詐的可能性。解決方案可實時分析事務,生成建議的立即執行的措施,這對阻止第三方欺詐、第一方欺詐和對帳戶特權的蓄意濫用至關重要。

解決方案通常旨在檢測和阻止多個行業的眾多欺詐和風險型別,其中包括:

  • 信用卡和借記卡欺詐
  • 存款帳戶欺詐
  • 技術欺詐
  • 壞賬
  • 醫療欺詐
  • 醫療補助計劃和醫療保險欺詐
  • 財產和災害保險欺詐
  • 工傷賠償欺詐
  • 保險欺詐
  • 電信欺詐

 

按型別對大資料問題分類,更容易看到每種資料的特徵。這些特徵可幫助我們瞭解如何獲取資料,如何將它處理為合適的格式,以及新資料出現的頻率。來自不同來源的資料具有不同的特徵;例如,社交媒體資料包含不斷傳入的視訊、影象和非結構化文字(比如部落格文章)。

我們依據這些常見特徵來評估資料,下一節將詳細介紹這些特徵:

  • 內容的格式
  • 資料的型別(例如,交易資料、歷史資料或主資料)
  • 將提供該資料的頻率
  • 意圖:資料需要如何處理(例如對資料的臨時查詢)
  • 處理是否必須實時、近實時還是按批次執行。

使用大資料型別對大資料特徵進行分類

按特定方向分析大資料的特徵會有所幫助,例如以下特徵:資料如何收集、分析和處理。對資料進行分類後,就可以將它與合適的大資料模式匹配:

  • 分析型別 — 對資料執行實時分析還是批量分析。請仔細考慮分析型別的選擇,因為這會影響一些有關產品、工具、硬體、資料來源和預期的資料頻率的其他決策。一些用例可能需要混合使用兩種型別:
    • 欺詐檢測;分析必須實時或近實時地完成。
    • 針對戰略性業務決策的趨勢分析;分析可採用批量模式。
  • 處理方法 — 要應用來處理資料的技術型別(比如預測、分析、臨時查詢和報告)。業務需求確定了合適的處理方法。可結合使用各種技術。處理方法的選擇,有助於識別要在您的大資料解決方案中使用的合適的工具和技術。
  • 資料頻率和大小 — 預計有多少資料和資料到達的頻率多高。知道頻率和大小,有助於確定儲存機制、儲存格式和所需的預處理工具。資料頻率和大小依賴於資料來源:
    • 按需分析,與社交媒體資料一樣
    • 實時、持續提供(天氣資料、交易資料)
    • 時序(基於時間的資料)
  • 資料型別 — 要處理資料型別 — 交易、歷史、主資料等。知道資料型別,有助於將資料隔離在儲存中。
  • 內容格式(傳入資料的格式)結構化(例如 RDMBS)、非結構化(例如音訊、視訊和影象)或半結構化。格式確定了需要如何處理傳入的資料,這是選擇工具、技術以及從業務角度定義解決方案的關鍵。
  • 資料來源 — 資料的來源(生成資料的地方),比如 Web 和社交媒體、機器生成、人類生成等。識別所有資料來源有助於從業務角度識別資料範圍。該圖顯示了使用最廣泛的資料來源。
  • 資料使用者 — 處理的資料的所有可能使用者的列表:
    • 業務流程
    • 業務使用者
    • 企業應用程式
    • 各種業務角色中的各個人員
    • 部分處理流程
    • 其他資料儲存庫或企業應用程式
  • 硬體 — 將在其上實現大資料解決方案的硬體型別,包括商用硬體或最先進的硬體。理解硬體的限制,有助於指導大資料解決方案的選擇。

圖 1 描繪用於分類大資料的各種類別。定義大資料模式的關鍵類別已識別並在藍色方框中突出顯示。大資料模式(將在下一篇文章中定義)來自這些類別的組合。

圖 1. 大資料分類

大資料分類

原文連結:https://www.ibm.com/developerworks/cn/data/library/bd-archpatterns1/index.html?ca=drs-

相關文章