Samza文件翻譯 : Architecture

devos發表於2014-04-06

http://samza.incubator.apache.org/learn/documentation/0.7.0/introduction/architecture.html

Samza由三層組成：

A streaming layer 訊息流層
An execution layer 執行層
A processing layer 處理層

Samza自身提供了對所有三個層的支援：

Streaming : Kafka
Execution: YARN
Processing: Samza API

這三個部分組裝到一起構成了Samza:

這個架構遵循了Hadoop的類似模式(使用YARN做為執行層，HDFS做儲存，MapReduce做處理層API)

在對這三層的每一層做深入介紹之前，首先要說明下：Samza不僅支援Kafka和YARN。Samza的執行層和訊息流層都是pluggable的，並且如果使用者喜歡，可以自己實現。

Kafka

Kafka是一個分散式的釋出-訂閱以及訊息佇列系統，提供了at least once的訊息保證(也就是說這個系統保證了沒有訊息會丟失，但是在特定的錯誤情境下，一個consumer可能會收到多於一次的同一條訊息),並且高可用的partition(也就是說一個stream的partition即使在機器down掉的情下仍然可用)。

在kafka，每一個流被稱為一個topic。每個topic被分割槽以備份到多個機器上，這些機器叫broker。當一個producer傳送一條訊息到一個topic，這個producer提供一個key，來決定這個訊息應該被送往topic的哪個partition。Kafka broker接收訊息，並且儲存訊息。Kafka consumer可以通過訂閱這個topic的所有partition來讀取這個topic(譯註：Kafka consumer可以計閱特定的partition，但是要獲取一個topic的所有訊息，就得訂閱這個topic的所有partition)。

Kafka有一些有趣的屬性：

發給一個topic的有相同key的訊息都被髮送往同一個partition。這意味著，如果你想要讀關於某個user ID的所有訊息，只需要讀包括這個user ID的的那個partition，而不是整個topic(假設user ID被當作key)
一個partition是一個訊息序列，其順序為訊息到達的順序，所有你可以使用一個單調遞增的offset(就像陣列的索引一樣)來引用partition裡的訊息。這意味著broker不用追蹤哪個訊息被哪個consumer消費過——consumer可以自己記錄消費的狀態，它只要記錄下它消費的最後一條訊息的offset就行。(譯註：設想如果訊息沒有offset，當消費者重啟時，它該怎麼知道自己上次消費到哪了。offset使得伺服器端不需要記錄消費者的狀態，這個狀態消費者可以自己維護)。消費者就知道所有offset小於當前offset的消費都已經被處理了；所有offset更大的訊息都還沒有被處理。

更詳細的資訊，請看kafka的文件。

YARN

YARN(Yet Another Resource Negotiator)是Hadoop的下一代叢集排程器。它允許你分派一定數目的 container(程式)到一個叢集中，並且在container中執行任意的指令。

當一個應用程式與YARN互動時，看起來就像這樣:

應用程式：我想要在兩臺512M記憶體的機器上執行指令X
YARN: 酷，你的程式碼哪呢？
應用程式: http://path.to.host/jobs/download/my.tgz
YARN：我現在在node-1.grid和node-2.grid上跑你的程式啦

Samza使用YARN來管理其部署、容錯、日誌記錄、資源隔離、安全，以及本地化。下面有一個對YARN的簡介；這篇Hortonworks的文章做了一個更好的概述。

YARN的架構

YARN有三個重要的部分：一個資源管理器ResourceManager、一個NodeManager、一個ApplicationMaster。在一個YARN grid中，每個機器執行著一個NodeManager，NodeManager負責在這臺機器上啟動程式。ResourceManager告訴所有NodeManager它們應該執行什麼。當應用程式想要在叢集上執行的時候，它會與ResourceManager來對話。第三個部分，ApplicationMaster，實際上是一段應用程式指定的執行在YARN叢集上的程式碼，它負責管理應用程式的工作負荷，請求獲取container(通常是UNIX程式)，以及當container出現故障時處理通知。

Samza 和 YARN

Samza提供了一個YARN ApplicationMaster和一個自帶的YARN job。Samza和YARN的整合用下面的圖列出(不同的顏色表示不同的主機)

當Samza client啟動一個Samza job時，它與YARN RM進行通訊。YARN RN告訴一個YARN NM來在叢集上給Samza的ApplicationMaster分配空間。當NM分配好空間以後，它啟動Samza AM。當Samza AM啟動後，它向YARN RM請求一個或更多的 YARN container來執行Samza TaskRunner。然後，RM和NM一起工作，來為containers安排空間。當空間被分配好了，NM啟動Samza containers.

Samza

Samza使用YARN和Kafka來提供一個框架，用於多級流處理和分割槽stage-wise stream processing and partitioning。所有東西在一起，看來就樣(用不同的顏色表示不同的主機)

Samza client使用YARN來執行Samza任務。Samza TaskRunners執行在一個或更多的YARN containers，並且執行使用者輸入的Samza StreamTasks. Samza Stream Task的輸入和輸出都來自Kafka brokers，這些brokers通常和YARN NMs座落在同樣的一些機器上。

例子

讓我們來看一下真正的例子：假如我們想要計算頁面點選量的總數。使用SQL時，你可能會這麼寫：

SELECT user_id, COUNT(*) FROM PageViewEvent GROUP BY user_id.

雖然Samza現在不支援SQL，但是思想是一致的。這個查詢需機兩個job:一個將訊息按user ID分組，另一個來做計數。

在第一個job裡，把有相同user ID的訊息傳送到一箇中間topic的相同partition裡，以此來完成分組。為了做到這些，你可以在第一個job裡用user ID做為訊息的key，這key被對映到中間topic的一個partition(通過對key做雜湊，然後對partition數量求模)。第二個job消費中間的topic。第二個job中的每個task，消費中間topic的一個partition，也就是所有user ID的一個子集對應的所有訊息。Task對於分配給它的partition裡的每一個使用者id有一個計數器，每當這個task收到一個訊息時，它就會更新這個訊息中的user ID對應的計數器。

如果你熟悉Hadoop，你可能把這個認為是一個Map/Reduce操作，在mapper中，每條記錄和一個特定的key關聯，有相同key的記錄被這個框架組織到一起，然後在reducer中進行計數。Hadoop和Samza的不同在於Hadoop操作於確定的輸入，而Samza工作於無界的資料流。

kafka接受第一個job傳送的訊息，並把它們快取在磁碟，分佈在多個機器中。這樣來幫助這個系統的容錯：如果機器故障了，沒有訊息會丟失，因為它們被複制到了其它機器上。如果第二個job工作很慢或者因為某些原因停止消費訊息，第一個job也不會受影響:磁碟快取會吸收第一個job積壓的訊息直到第二個job追趕上來。

通過topic分割槽，以及把一個流處理分成在多個機器上執行的job和並行的task，Samza可以擴充套件到可以流處理非常高的訊息吞吐量，通過使用YARN和Kafka，Samza實現容錯：如果一個處理或者機器down了，它會自動在另一個機器上重啟，並且從上次停下來的點繼處理。

下一節：對比介紹

Hadoop官網翻譯之HDFS Architecture
2019-01-01
Hadoop
文件翻譯器怎麼用？如何翻譯Word文件？
2019-08-15
MPAndroidChart文件翻譯
2019-02-19
Android
有ppt文件翻譯軟體嗎？如何翻譯整篇ppt文件
2019-08-16
Moya官方文件翻譯
2018-03-21
實用的Word文件翻譯方法分享，讓Word文件快速翻譯
2019-08-12
怎麼翻譯整篇Excel文件？Excel文件翻譯一招搞定
2019-08-14
Excel
怎麼把Excel文件翻譯成中文？Excel文件翻譯方法介紹
2019-08-21
Excel
Draft 文件翻譯 - API - ContentState
2021-09-09
RaftAPI
docker官方文件翻譯3
2019-02-22
Docker
SnapKit 中文文件翻譯
2019-03-04
APK
rabbitmq 官方文件翻譯-2
2019-02-16
MQ
docker官方文件翻譯4
2019-02-17
Docker
docker官方文件翻譯5
2018-05-08
Docker
docker官方文件翻譯2
2018-05-01
Docker
docker官方文件翻譯1
2018-05-01
Docker
influxdb官網文件翻譯
2018-07-30
UX
TailWind文件翻譯說明以及每日翻譯進度
2021-01-19
AI
HTTPie 官方文件中文翻譯版
2019-02-16
HTTP
SpringAop英文文件部分翻譯
2018-12-15
Spring
Gin 框架中文文件（翻譯）
2018-07-13
框架
BBNorm官方指導文件翻譯
2018-04-01
ORM
文件翻譯軟體怎麼用？怎麼把Excel文件翻譯成中文版
2019-08-27
Excel
oc-plugin-book 文件協作翻譯外掛（類似 LearnKu.com 的文件翻譯）
2019-06-16
Plugin
jepsen 官方文件的中文翻譯版本
2022-11-24
SQLAlchemy 2.0 中文文件翻譯完成
2024-04-19
SQL
重新翻譯版本|Redux-Reselect 文件
2019-04-23
Redux
Draft 文件翻譯 - 快速開始 - 概念
2021-09-09
Raft
[譯]Spring Security Architecture
2019-04-21
Spring
PendingIntent 是個啥？官方文件描述的很到位。我給翻譯翻譯
2018-11-08
Intent
tyFlow Script運算子API中文翻譯文件
2024-12-05
API
Serilog文件翻譯系列（三） - 基礎配置
2024-09-01
Serilog文件翻譯系列（一） - 入門指南
2024-08-28
Appium 文件翻譯計劃 2020 啟動
2020-07-06
APP
ExoPlayer的使用與解析（官方文件翻譯）
2019-04-28
Draft 文件翻譯 - 高階主題 - Decorators
2021-09-09
Raft
Spring系列(零) Spring Framework 文件中文翻譯
2019-03-09
SpringFramework
WebSocket 協議 RFC 文件（全中文翻譯）
2019-02-19
Web協議
kotlinx協程官方文件中文翻譯版本
2018-06-04
Kotlin