實時計算小括

carr_fu發表於2022-03-22

       資料領域主要分兩個世界,一個OLTP(線上交易: 資料庫),一個是OLAP(線上分析: 大資料)。OLTP基於ACID特性,OLAP中用到的技術是CAP理論和BASE理論。CAP是一致性(Consistency)、可用性(Availability)、分割槽容忍性(Partition tolerance)三者只能取其二,BASE是最終一致性。ACID是原子性(atomicity)、一致性(consistency)、隔離性(isolation)、永續性(durability)。這是兩套世界的PK模式,當然也有HTAP,只不過目前來說做得都不好。

       

       大資料主要分兩種場景,一個是離線,一個是實時。離線主要面向經營分析類的需求(離線數倉),實時主要是實時計算,有微批和流兩種實現方式。


       下面是一幅實時處理價值指數級衰減的曲線:

1秒鐘返回結果,1分鐘返回結果,1小時返回結果,1天返回結果等等,它的價值是完全不一樣的。如果是毫秒級或者微秒級直接響應的話,那就屬於實時計算。應用場景很多,如風控場景、無人駕駛場景、工業場景等。


      下面我們看一個Lambda架構,是一個流批獨立的Function。上面橙色部分是批處理操作,原始資料通過批處理然後給到不同的服務的介面,供查詢使用;下面是流計算當中的實時場景,這裡並不分兩段,而是直接供給給下游消費。


       舉一個實時監控響應的應用:

系統端的資料會實時產生,通過Flume可以採集(也可以由Mysql或者Log直接給到Kafka),給到Kafka,就完成了資料的收集。通過Flink完成計算,存到CK或關係型資料庫中,最後用阿里的QiuckBI或開源的Supperset展示。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70015587/viewspace-2881185/,如需轉載,請註明出處,否則將追究法律責任。

相關文章