曾經爆火的「流批一體」現在怎麼樣了?
2021年和2022年,曾經有一個概念在整個資料開發方向傳播,不管是懂和不懂的人,都能扯上一兩句。那就是大家耳熟能詳的「流批一體」。
時至今日,已經很少有人再提起這個話題,這個概念在21、22年很多面試中也會被面試官問到,經常有同學問我這個問題,該怎麼回答?
今天咱們稍微聊聊這個話題。
當時這個概念被很多人提起,大概的意思就是這樣:期望一套程式碼能同時在批處理和流處理中執行。
這個概念神奇在哪呢?這個概念最初被Flink社群提起,因為期望能用Flink Batch 和 Flink Streaming一套程式碼同時做離線計算和實時計算,能解決資料的一致性、口徑等等問題。
這麼想當然沒什麼問題,是個很好的設想。但是前提是Flink能夠同時承擔離線和實時兩條鏈路的高效/穩定/低成本的執行。
小資料量下/小業務規模/小資料規模下,都沒有什麼問題。因為簡單,線上隨便整,問題也不會很多。
但是,一旦你的業務/資料規模變得很大,這是行不通的,所以真正能做到落地的公司和場景屈指可數。這也是至今,這個概念不再被廣泛提及的主要原因之一。
是不是這個方向沒什麼搞頭了?不是的。
其實大家可以換個思路,如果說在計算引擎上不能做到統一,那麼我們在資料側做到統一不就行了,我們統一不了計算引擎,但是我們統一資料出口。
所以,這個流批一體這個小領域,在業界分化出來了兩類做法。
第一類,和Kappa架構相互融合,把資料出口統一在實時側;
在業界的頭部公司有一些比較核心的業務場景,是不能接受離線/實時資料的差異性,或者容忍度很低。所以,業界的公司會在某個業務場景借鑑Kappa架構的設計,邏輯在實時側進行統一,同時向離線進行同步。說簡單點就是依賴Kafka->Hdfs這條同步鏈路,這條鏈路在業界頭部公司很成熟很穩定,久經考驗,這也為這種做法能夠實施打下了堅實的基礎。
這種做法,可以保證資料的邏輯是收口的,資料的下游在做複雜計算時不易產生口徑上的誤差。這種做法在大公司特定業務場景目前已經較為普遍,方案成熟,鏈路上實時計算側需要重點保障,離線資料一邊會變成分鐘/小時級可見的資料,時效性也會大大提升。
第二類,統一儲存引擎和計算引擎,同時能跑流和批計算;
能做到這件事的公司國內一隻手都數得過來,做法就是自研儲存引擎,能夠同時支援流讀(主要對接Flink SQL)也可以支援批讀(主要對接Spark SQL),在語法上引擎側做到高度一致。保證資料是同源的,也能解決一部分流批一體的問題。(資料同源很重要,這是解決差異性的第一步,如果你的資料不同源,那麼未來資料有差異是遲早的問題)
但是我們必須得明白,在實時計算和離線計算中的語義有明顯的不同,這個不同主要就是由於「狀態」引起的。所以,只能在特定的場景中實現流批一體,不具有廣泛適用性。
時至今日,這個方向仍然在悄無聲息的發展,可能就在某家大公司的某個場景,大受裨益,有很多非常好的生產實踐。
這也是為什麼大家現在去面試,別人問你「流批一體」的真正落地,你欲言又止,思緒彷彿回到3年前,想說的很多,但是無從談起...
來自 “ 大資料技術與架構 ”, 原文作者:大資料卷王;原文連結:https://mp.weixin.qq.com/s/Tq1aqNXdI9BwAsXH3pctkw,如有侵權,請聯絡管理員刪除。
相關文章
- AR、VR、區塊鏈……曾經火熱的遊戲風口現在都怎麼樣了?VR區塊鏈遊戲
- 那些做過爆款遊戲的中小團隊,現在怎麼樣了?遊戲
- Hadoop現在怎麼樣了?Hadoop
- Flink 流批一體在小米的實踐
- 曾經火遍遊戲圈的網頁遊戲,為何沒落了?遊戲網頁
- Flink 流批一體方案在數禾的實踐
- 流批一體架構在快手的實踐和思考架構
- 曾爆火的 InstantID又有了新玩法:風格化影像生成,已開源
- 大模型能自己最佳化Prompt了,曾經那麼火的提示工程要死了嗎?大模型
- 智慧家居大盤穩固,可為什麼那些曾經的爆款越賣越差了?
- 國內炒了兩三年的“雲遊戲”現在怎麼樣了?遊戲
- 我曾經是怎麼做面試官的面試
- 那個被Steam玩家罵了一年的遊戲商店,現在過得怎麼樣了?遊戲
- 那些算頻率的演算法,現在都怎麼樣了?演算法
- 流批一體在 AI 核心電商領域的探索與實踐AI
- 爆火的外賣霸王餐專案,怎麼做?
- 中國的汽車現在發展怎麼樣
- 現場削黃瓜、疊衣服,曾爆火的刮鬍子機器人再進化,穹徹的具身智慧大腦來了!機器人
- 《鵝鴨殺》爆火,一文帶你瞭解如何實現頂流社交遊戲遊戲
- Arctic 基於 Hive 的流批一體實踐Hive
- 流批一體在京東的探索與實踐
- 讀Flink原始碼談設計:流批一體的實現與現狀原始碼
- 5G網路又被提上來說了新技術現在怎麼樣了?
- 曾經熱鬧的潛行遊戲為什麼不火爆了?遊戲
- 曾經被視為日本遊戲業希望的LEVEL5怎麼就衰落了?遊戲
- 在騰訊工作是一種怎樣的體驗?
- 在遊戲里加入自走棋模式的遊戲們 它們的本體都怎麼樣了?遊戲模式
- 智慧經營系統怎麼樣?解決了什麼問題?
- 那些零基礎學雲端計算的人,現在都怎麼樣了?
- 流批一體機器學習演算法平臺機器學習演算法
- 送給和我一樣曾經浮躁過的PHP程式設計師PHP程式設計師
- 擁有智慧數字經營系統是一種怎麼樣的體驗?
- 《風火輪:爆發》:怎樣讓一款賽車模擬遊戲變得更易於上手?遊戲
- 怎麼樣在JBUILDERX中實現會話BEAN訪問實體BEAN??UI會話Bean
- 重新思考 | 實時數倉、湖倉一體、流批一體,它們都在說什麼
- 6年,40餘款產品,曾經的阿里遊戲一如現在的位元組阿里遊戲
- 板橋,你的專案怎麼樣了?
- FeatHub:流批一體的實時特徵工程平臺特徵工程