三分鐘瞭解實時流式大資料分析

華為雲學院發表於2019-01-17

三分鐘瞭解實時流式大資料分析

 

大家好,今天為大家介紹華為雲實時流計算服務 CS,希望透過本次分享,大家能對華為雲實時流計算服務的服務能力和業務場景有所瞭解。

我們先了解一下實時流計算背景。下面列舉的是流資料普遍產生的四個方面:一、日誌;二、物聯網,也就是感測器或者邊緣裝置所產生的資料;三、車聯網,也就是車輛行駛過程中或者車載系統所產生的資料;四、 StreamingML。流資料普遍產生,但並沒有充分產生價值。那麼什麼是實時流計算呢?實時流是指計算框架按事件逐條實時處理,one-by-one的資料流。計算,是指數學運算資料分析,演算法模型執行等。實時流計算是指實時處理當下正在發生的流資料,逐條大資料分析或執行機器學習演算法。

                                             

以上這幅圖是一個事件時間和執行時間的曲線。相對於事件時間,也就是事件發生的時間來說,執行時間也就資料處理時間有一個延遲。目前技術發展加速度不斷上升,人的耐心程度在下降,而大資料增速在不斷上升。所以實時流計算需要快速驅動業務,最大限度挖掘資料價值。

以上這幅圖就是時間和資料價值的曲線。我們可以看到距當下時間越近,每 GB所產生的價值越高,幾乎是呈一個指數型的函式,因此大資料AI越實時越有價值。當前的開源流資料的框架許多包括APACHE STORM、Aakka、kafka等等,但是目前主流的框架主要是Apache Spark和Flink, 實時流計算服務,正是基於這兩種框架。

那麼實時流到底是什麼?實時流計算服務( Cloud Stream Service, 簡稱CS)提供實時處理流式大資料的全棧能力, 簡單易用, 即時執行Stream SQL或自定義作業。無需關心計算叢集, 無需學習程式設計技能。完全相容Apache Flink和Spark API。華為雲實時流計算服務主要提供如下功能:1.StreamingML :提供多種流式機器學習方法對資料進行實時分析與預測,使用者僅需編寫SQL呼叫相關函式便可實現資料統計,異常檢測,實時聚類,時間序列分析等場景;2.地理位置分析:提供地理位置分析函式對地理空間資料進行實時分析,使用者僅需編寫SQL便可實現例如偏航檢測,電子圍欄等地理分析場景;3.CEP SQL:提供基於Match Recognize的模式匹配檢測,幫助業務人員使用SQL實現基於複雜事件規則的異常檢測業務。典型應用場景如欺詐檢測、車輛異常行為檢測、工業裝置異常執行狀態檢測等;4.視覺化:提供多種圖表型別實時展示作業資料輸出,使用者可以透過API閘道器服務自由訪問作業資料,接入自定義工作流中。應用場景包括易用、低時延、高吞吐的實時流分析;物聯網行業應用,即物聯網裝置或邊緣裝置,上傳資料到資料接入服務(DIS)或者其他雲端儲存服務,CS直接從DIS讀取資料,實時分析資料流(故障檢測、資料清洗、統計分析、指標預警等等),實時把流分析結果持久化或推送告警通知等。

想要學習更多實時流相關內容及如何使用嗎,現在進入華為雲學院( https://edu.huaweicloud.com/courses/) 即可免費學習最新課程《華為雲實時流計算服務》,快速瞭解低時延、高吞吐、高可靠的分散式實時流計算服務!


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31556022/viewspace-2563989/,如需轉載,請註明出處,否則將追究法律責任。

相關文章