反思｜分散式框架是必須的嗎？

晚來風急發表於2017-08-02

【原文編者的話】本文主要講述了通過規範化處理流程，可以使用相同的處理流程來處理流式或者批量處理任務，例如Hadoop和Storm，從而提高重用性。

當有人問起該如何處理大資料問題時，他們總是被指引到現存的產品中，例如Hadoop或者Storm。雖然這些產品非常棒，但也引發了一些問題。首先，就我個人的經驗來看，為了獲得最佳的處理結果，你必須使用這些框架首選的語言或者虛擬機器編寫你的程式碼，典型的就是JVM。當語言或者虛擬機器不適用時，就意味著你必須重寫你的程式碼來適應這些框架。同樣，像Hadoop和Storm這兩種框架所做的事情非常不一樣，這就給程式碼的重用增加了更大的困難。如果你想做流式和批量處理分析，你就需要這兩種框架。當然，有些方法能夠做到這一點，但我不清楚這種方法是否有更多的選擇性，或者這種方法是否很難進行維持。

目前，我正在使用一個分散式系統並且它沒有使用任何上述技術。這個分散式系統執行的很好，雖然它不完美，但是它的確實現了。這就引發我思考分散式框架是否是必須的。實際上，MapReduce和Streaming框架的真正區別是什麼?資料通過不同的處理流程式列化，這僅僅是如何將資料連結到一起以及不同處理流程發出資料頻率的問題。

因此，也許我們真正需要的是規範化如何讓各種處理流程並存以及如何將它們連結在一起。我相信我們可以通過一些現有的技術來做到這一點。Mesos 和Kubernetes可以在一個叢集中用來執行處理流程。佇列化技術例如Kafka和NSQ能夠在不同的處理流程間傳遞訊息。處理流程可以使用不同的語言實現，並且可以通過Docker或者類似產品封裝在容器中來管理其依賴。

我個人發現這種方式是比較合適的，這種解決方法聚焦在不同處理流程之間的通訊問題。通過制定相關的協議，我相信可以將不同的處理流程解耦合。同樣，當需要時分析過程中使用到的技術也能更加容易地置換出來。舉個例子來說，Python能夠用來塑造一個分析原型，當效能成為更為嚴重的問題時，它可以使用編譯型語言D或者Go進行重寫。當相同的處理流程無需修改程式碼就可以適用於流式處理和批量處理或者MapReduce任務時，我們也能從中獲得更好的重用性。

當然，這只是一個粗略的想法，也沒有覆蓋這些系統的所有案例和各個方面，但我相信這是一個好的開始。我更加希望看到的是有個工程能夠更加深入地研究下去，並且能夠為這些系統制定一份詳細說明書。如果需要，這種方法可以按照詳細說明書提供執行庫來確保相容性，也許更重要的是描述在一個相容性問題的事件中該做什麼。

本文作者：肖遠昊

來源：51CTO

必須掌握的分散式檔案儲存系統—HDFS
2020-10-27
分散式
你必須瞭解的分散式事務解決方案
2021-08-16
分散式
理解大型分散式網站你必須知道這些概念
2018-04-14
分散式網站
同事有話說 | 跨職能團隊是必須的嗎？
2021-07-26
使用微服務前必須要了解的“分散式系統的謬誤”
2023-01-12
微服務分散式
.Net微服務實戰之必須得面對的分散式問題
2021-02-03
微服務分散式
必須理解的分散式系統中雷同的叢集技術及原理
2018-07-13
分散式
python必須安裝pip嗎
2021-09-11
Python
什麼是字串?Python中字串必須加引號嗎?
2024-01-03
字串Python
Flashback database必須要有之前的archivelog嗎？
2019-01-19
DatabaseHive
分散式框架
2019-03-20
分散式框架
害怕軟體的複雜嗎？其實複雜性是必須存在的 - ferd
2020-05-04
mysql建表必須使用主鍵嗎
2020-12-04
MySql
函式你必須知道的三種角色？
2019-09-18
函式
Java開發者必須掌握的15個框架（20k是小問題）
2019-05-06
Java框架
亞馬遜認為在分散式系統中必須避免使用回退
2021-11-11
亞馬遜分散式
Python有哪些是必須學的運算子？
2021-10-18
Python
學習web前端你必須要了解的主流框架!
2021-05-26
Web前端框架
什麼是實名域名？域名必須進行實名認證嗎？
2021-10-22
[分散式][Redis]Redis分散式框架搭建與整合
2019-03-26
分散式Redis框架
KUDU 能超越 300列限制嗎 ? 必須能
2020-04-28
測試流程必須嚴格執行嗎？
2024-10-10
客戶管理必須要用CRM系統嗎？
2022-08-17
分散式、微服務必須配個日誌管理系統才優秀，Exceptionless走起~~~
2021-09-29
分散式微服務Exception
框架篇：分散式鎖
2021-06-22
框架分散式
Python常用的開源框架，這三個你必須知道!
2021-06-15
Python框架
編譯器說 Lambda 表示式中的變數必須是 final 的，我偏不信
2020-04-07
編譯變數
[分散式]--Dubbo分散式服務框架-服務治理
2019-01-07
分散式框架
美顏sdk濾鏡有什麼用處？對於直播平臺是必須的嗎？
2022-07-29
[JAVA] CLASSPATH環境變數必須要配置嗎
2020-03-21
Java變數
C中int main()必須reture一個值嗎
2024-10-14
AI
三種常用的內建函式--必須牢記
2024-07-02
函式
【高併發】如何實現億級流量下的分散式限流？這些理論你必須掌握！！
2020-07-29
分散式
您的微服務是分散式整體嗎？ -軟體工程日報
2021-04-22
微服務分散式軟體工程
Python培訓中有哪些是必須學的運算子?
2021-10-15
Python
嵌入式反思
2024-12-02
分散式通訊框架 – rmi
2018-11-05
分散式框架
分散式通訊框架 - rmi
2018-11-05
分散式框架
分散式服務框架 gRPC
2019-11-17
分散式框架RPC

反思｜分散式框架是必須的嗎？

相關文章