簡要說明,實時資料分析將面臨哪些問題和挑戰?

陝西優就業發表於2019-01-25

在硬體和軟體層面,每個元素必須設計為以不同方式接收資料。隨著實時和批處理模式分析的普及,提供服務級別協議(SLA)的需求推動了硬體設計和軟體開發的新要求。但是,只是升級硬體和或軟體可能不足以實現企業可用的所有資料的全部值。

如今,很多討論都集中在大量的實時資料及其為企業提供的價值上。但是所有這些資料都需要處理才能產生有用的見解。IT組織在應對大資料挑戰時必須解決哪些最常見的硬體和軟體挑戰?接下來,就和 陝西優就業 小編一起詳細看看吧!

在硬體和軟體層面,每個元素必須設計為以不同方式接收資料。隨著實時和批處理模式分析的普及,提供服務級別協議(SLA)的需求推動了硬體設計和軟體開發的新要求。但是,只是升級硬體和/或軟體可能不足以實現企業可用的所有資料的全部價值。

1.為了應對資料的巨大增長,出現了哪些主要的架構模式?

在開發應用程式以匹配資料的種類、數量和速度,而不是將資料強制轉換為快速變得難以處理的結構的意義上,可以將一類新的體系結構模式稱為“以資料為中心”。以資料為中心的架構必須解決資料提取、聚合、清理、驗證、整合、儲存、分析,以及最終使用的挑戰。這就是資料從源頭流出的方式:從儲存後的資訊變為基於最新分析的洞察力,最終實現為企業中的目標操作驅動行動的決策。這個資料處理流程或管道的每個階段都需要部署一些新模式。

2.以資料為中心的新視角如何重塑資料中心架構?

從以應用程式為中心轉向以資料為中心的觀點正在迫使對資料中心架構進行一些重塑。思維方式的主要轉變是在任何可用的地方訪問、收集、處理和使用資料。因此,資料中心架構必須靈活地連線可能在傳統物理邊界之外的資料來源和儲存庫。它還意味著應用程式必須具有靈活性,以便它們可以在資料所在的位置執行,這反過來意味著應用程式元素需要API驅動的靈活設計。

3.所有的處理都必須在中央資料中心進行嗎?還是以分散式、以邊緣為中心的資料中心會變得更加普遍?

鑑於大多數傳統資料中心都是資料處理的核心,它們是新增以資料為中心的新功能的自然起點。但這種方法存在嚴重的侷限性。企業必須充分理解以資料為中心的方法,並掌握“資料引力”的概念。換句話說,資料傾向於保留其來源和/或收集的地方。它是新興的以邊緣為中心的資料中心背後的驅動力。涉及延遲、響應時間、安全性、資料主權,以及資料位置的服務等級協議(SLA)都將傳統的中央資料中心擴充套件和傳播到一系列連線的以邊緣為中心的效能最佳化資料中心(POD)中,這些效能最佳化資料中心(POD)可以在本地處理資料,同時仍將其傳遞到中央儲存庫。

4.機器學習對資料分析的影響是什麼?是否有必要保持競爭力?

我們將機器學習(ML)視為一種廣泛的分析工具集合。雖然許多機器學習(ML)演算法已存在多年,但機器學習(ML)工具箱仍在不斷擴充套件新的演算法。特別是,深度學習(DL)作為機器學習(ML)的一個子集,正在經歷大量的研究活動以及獲得各行業的興趣。

5.是否有一個“簡單按鈕”,用於部署可以處理大量資料負載的儲存和處理基礎架構?企業在做出架構決策時應該考慮什麼?

在這種情況下,“簡單按鈕”位於架構級別。確保為資料提取、儲存和處理提供架構元素,以提供所需的效能、可靠性和可擴充套件性,這是一個可以開始的地方。根據資料量、種類和速度,資料提取管道必須能夠容納所有資料來源,併為批次模式和實時分析提供資料儲存。資料儲存元素必須分階段用於結構化、半結構化和非結構化資料,從而隨時間的增長實現無縫容量增長。最後,必須提供基於訓練模型的機器學習(ML)/深度學習(DL)模型訓練和實時推斷的資料處理計算能力。在這裡,計算叢集的硬體加速器和基於可擴充套件性的動態配置是重要的特性。以這種方式構建,基礎設施可以採用與分析工作負載在給定時間所需的一樣的大小和規模。

6.最佳化實時資料分析工作流程的基本規則是什麼?IT組織可以採用一刀切的方法嗎?

儘管一刀切的方法似乎在最初的幾個例子中起作用,但固有的低效率和不靈活性將限制整體的潛在價值。一些基本規則包括模組化設計、API驅動元素、在硬體和軟體級別加入加速,以及使用相關指標監控服務等級協議(SLA)的能力。

7.資料分析的主要機器學習應用程式是什麼?它們在不同行業之間有何不同?

基於機器學習(ML)的資料分析應用程式差異很大。例如在金融領域,欺詐檢測是一項採用最新機器學習(ML)技術的實時分析任務。這種應用程式的體系結構涉及資料攝取管道、資料儲存、用於訓練機器學習(ML)模型的批處理模式處理,以及用於線上上部署訓練模型的流模式分析。例如,在欺詐檢測的情況下,信用卡交易,數百萬交易因此需要使用亞秒級視窗進行處理,以宣告交易是否應被標記為欺詐。對於運輸行業而言,車隊管理是一個實時分析用例。對於醫療保健行業來說,各種臨床和家庭患者護理可能涉及實時分析。

8.評估分析技術是否適合實時資料處理的主要指標是什麼?

分析引擎必須提供目標應用程式所需的吞吐量和延遲。因此,他們必須達到響應時間,以便分析的見解具有影響力。此外,分析引擎需要靈活且模組化,並且最好是基於API的,因此它們可以作為微服務新增到目標應用程式中。

9.企業如何開始啟用機器學習演算法來處理實時資料?

企業必須制定一項戰略,以實現實時分析的所有要素。設定將資料來源連線到分析引擎的資料管道以及分析輸出到目標應用程式中的視覺化和使用是主要步驟。此外,訪問資料儲存庫和資料科學沙箱將有助於完成體系結構,並允許可變性來解決特定的業務問題。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69902581/viewspace-2564785/,如需轉載,請註明出處,否則將追究法律責任。

相關文章