Samza文件翻譯 : Backgroud

devos發表於2014-04-06

這一頁提供了關於流處理的背景知識，描述什麼是Samza，以及它為何而生。

what is messaging?什麼叫訊息？

訊息系統是用來實現近實時非同步計算的一種流行方式。當事件發生時，訊息可以被放在訊息佇列裡（ActiveMQ, RabbitMQ），釋出-訂閱系統(Kestrel, Kafka)裡，或者日誌彙集系統(Flume,Scribe)裡。下游的消費者從這些系統裡讀訊息，進行處理，或者根據訊息內容採取行動。

假如你有一個網站，並且每次有人載入一個網頁，就傳送發一個"使用者檢視了頁面"的訊息到訊息系統。你可能會有做以下任意事情的consumer：

把訊息儲存到Hadoop，用來以後分析
計算頁面訪問量並且更新到dashboard
如果頁面訪問失敗，觸發一個警報Background
傳送一個電子郵件通知另一個使用者
把頁面訪問事件和使用者的檔案合在一起，把合併後的訊息發回給訊息系統

一個訊息系統使你將以上的工作和實際的網頁服務解耦合。

What is stream processing? 什麼叫流處理

一個訊息系統是相當低層級一部分基礎設施——它儲存訊息，等待consumers來消費它。當你開始寫程式碼來生產或消費訊息，你很快就會發現在處理層有很多難對付的問題。Samza的目標就是幫助解決這些問題。

用上面的網頁訪問計數的例子(計算訪問量，然後更新dashboard)來說。你的消費者執行在的機器出現故障，並且你當前的計數器的值丟失了，將會發生什麼？你怎麼來恢復？當處理程式重啟時，它應該在哪執行？如果底層的訊息系統傳送給你兩次同樣的訊息，或者丟失一個訊息，應該怎麼辦？（除非你很小心，否則你的計數器可能就不正確了）。如果單獨一臺機器沒有足夠的計算能力，你怎麼把計算分佈到多臺機器上。

流處理是訊息系統之上的更高階別的抽象，它就是用來精確地解決這一類問題。

Samza

samza是一個流處理框架，它有以下特性：

簡單的API:不像大多數低層級的訊息系統的API，Samza提供了一個非常簡單的，基於回撥的 “訊息處理” API，和MapReduce類似。
受控的狀態：Samza管理“流處理器”的快照和恢復。當一個流處理器重啟，Samza會恢復它的狀態到一個一致的快照。Samza被構建來處理大規模的狀態(每個分割槽數GB).
容錯：當叢集中的任何一個機器發生故障，Samza和YARN一起透明地遷移你的task到另一臺機器。
Durability永續性: Samza使用Kafka來保證訊息按照他們寫入一個partition的順序被處理，並且不會有訊息丟失。
Scalability可擴充套件:Samza在各個層面上都是分割槽的以及分散式的。Kafka提供了有序的、分割槽的、可回放的、容錯的訊息流。YARN提供給Samza容器一個分散式的環境來執行。
Pluggable可插拔的:雖然Samza自帶對Kafka和YARN的支援，但是Samza同時提供了可插拔的API來讓你在別的訊息系統和執行環境中執行Samza。
Processor isolation處理器隔離:Samza與Apache YARN一起工作。YARN提供了Hadoop的安全模型，以及利用Linux CGruops的資源隔離。

其它選擇

現在可用的開源流處理系統都實際上非常新，沒有一個單獨的系統提供了所有的解決方案。這個領域的新問題包括：怎麼管理流處理器的狀態？是否一個流應該被遠端快取在硬碟上？當重複的訊息被接收或者訊息丟失時應該怎麼做？怎麼對底層的訊息系統建模？

Samza的主要區分點在於：

Samza支援本地狀態的容錯。狀態可以被想象成一些表，它們被分成很多塊，和各個處理工作分佈到一起。狀態本身被建模成一個流。如果本地狀態由於機器故障丟失，狀態流就會被回放，以重建它。
流是有序的、分割槽的、可以回放的、容錯的
YARN被用來做處理器隔離、安全、以及容錯
任務之間是解耦合的：如果一個job很慢，積壓了一些未處理的訊息，其它的系統不會受影響。

如果想要一個對Smaza更深層的討論，以及它和其它的流處理系統的關係，看一下Samza的Comparision文件吧。

文件翻譯器怎麼用？如何翻譯Word文件？
2019-08-15
MPAndroidChart文件翻譯
2019-02-19
Android
有ppt文件翻譯軟體嗎？如何翻譯整篇ppt文件
2019-08-16
Moya官方文件翻譯
2018-03-21
實用的Word文件翻譯方法分享，讓Word文件快速翻譯
2019-08-12
怎麼翻譯整篇Excel文件？Excel文件翻譯一招搞定
2019-08-14
Excel
怎麼把Excel文件翻譯成中文？Excel文件翻譯方法介紹
2019-08-21
Excel
docker官方文件翻譯3
2019-02-22
Docker
docker官方文件翻譯5
2018-05-08
Docker
docker官方文件翻譯2
2018-05-01
Docker
docker官方文件翻譯1
2018-05-01
Docker
influxdb官網文件翻譯
2018-07-30
UX
SnapKit 中文文件翻譯
2019-03-04
APK
rabbitmq 官方文件翻譯-2
2019-02-16
MQ
docker官方文件翻譯4
2019-02-17
Docker
Draft 文件翻譯 - API - ContentState
2021-09-09
RaftAPI
TailWind文件翻譯說明以及每日翻譯進度
2021-01-19
AI
HTTPie 官方文件中文翻譯版
2019-02-16
HTTP
SpringAop英文文件部分翻譯
2018-12-15
Spring
Gin 框架中文文件（翻譯）
2018-07-13
框架
BBNorm官方指導文件翻譯
2018-04-01
ORM
文件翻譯軟體怎麼用？怎麼把Excel文件翻譯成中文版
2019-08-27
Excel
oc-plugin-book 文件協作翻譯外掛（類似 LearnKu.com 的文件翻譯）
2019-06-16
Plugin
SQLAlchemy 2.0 中文文件翻譯完成
2024-04-19
SQL
重新翻譯版本|Redux-Reselect 文件
2019-04-23
Redux
Draft 文件翻譯 - 快速開始 - 概念
2021-09-09
Raft
jepsen 官方文件的中文翻譯版本
2022-11-24
PendingIntent 是個啥？官方文件描述的很到位。我給翻譯翻譯
2018-11-08
Intent
Spring系列(零) Spring Framework 文件中文翻譯
2019-03-09
SpringFramework
kotlinx協程官方文件中文翻譯版本
2018-06-04
Kotlin
Appium 文件翻譯計劃 2020 啟動
2020-07-06
APP
ExoPlayer的使用與解析（官方文件翻譯）
2019-04-28
WebSocket 協議 RFC 文件（全中文翻譯）
2019-02-19
Web協議
Serilog文件翻譯系列（三） - 基礎配置
2024-09-01
Serilog文件翻譯系列（一） - 入門指南
2024-08-28
tyFlow Script運算子API中文翻譯文件
2024-12-05
API
Draft 文件翻譯 - 高階主題 - Decorators
2021-09-09
Raft
谷歌翻譯使用php curl請求介面文件
2019-02-16
谷歌PHP
Apache Hadoop文件翻譯之一（HDFS架構）
2018-09-29
ApacheHadoop架構

Samza文件翻譯 : Backgroud

what is messaging?什麼叫訊息？

What is stream processing? 什麼叫流處理

Samza

其它選擇

相關文章