好程式設計師大資料培訓分享之Kafka 和 activemq 對比，背景分析訊息佇列這個型別的元件一直是非常重要的元件，當經過兩家企業後我就很堅信這個結論了。佇列這種東西，最廣泛的作用還是在於解耦，寬泛一點的說，它可以將不同部門的工作內容進行有效的整合，基於一個約定好的格式，就可以兩頭互相不干擾的進行開發。可以說這個生產消費的思想不僅僅適用於程式也適用於非常多的地方。
目前對於我看到的來說，kafka更多的還是做為一個資料來源，資料橋樑的作用，不同業務之間的溝通。比如需要實時接入A部門的業務資料的話，就會有這樣的手段：

　　落地到HDFS的資料會用來進行一些演算法上的離線處理，而kafka端則是給需要實時性的消費方。其實資料的消費方式無非也就實時和離線兩種方式。

Kafka和activemq對比

相比過去經常使用的activemq，kafka確實非常的不同，做一個對比來深化印象

對比	Activemq	Kafka
介面協議	遵守JMS規範,各語言支援較好	沒有遵循標準MQ介面協議,使用較為複雜
吞吐量	較低，磁碟隨機讀寫	較高，磁碟順序讀寫
遊標位置	AMQ來管理，無法讀取歷史資料	客戶端自己管理，不樂意甚至重新讀一遍也行
HA機制	主從複製,競爭鎖的方式來選舉新的主節點	和hadoop系列產品一樣,由zk管理所有節點

說到底，主要還是做為kafka的消費方，能感受到最大的不同還是在於幾個：

1. 吞吐量確實非常高
2.可以重讀歷史資料
但是也有一些缺點：
1.概念上比較複雜，相對於AMQ只需要知道ip和佇列名你就能獲得資料，Kafka使用起來非常繁瑣

Kafka的基本概念（摘錄）

1. Broker ：訊息中介軟體處理結點，一個Kafka節點就是一個broker，多個broker可以組成一個Kafka叢集。
2. Topic ：一類訊息，例如page view日誌、click日誌等都可以以topic的形式存在，Kafka叢集能夠同時負責多個topic的分發。
3. Partition ：topic物理上的分組，一個topic可以分為多個partition，每個partition是一個有序的佇列。
4. Segment ：partition物理上由多個segment組成。
5. offset ：每個partition都由一系列有序的、不可變的訊息組成，這些訊息被連續的追加到partition中。partition中的每個訊息都有一個連續的序列號叫做offset,用於partition唯一標識一條訊息.

Kafka消費端的常用引數

Properties props = new Properties();

//zk伺服器的地址 xxxx:2181

props.put("zookeeper.connect", zookeeper);

//組的名稱，區別於其他group否則會接收不到資料

props.put("group.id", groupId);

props.put("zookeeper.session.timeout.ms", "8000");

props.put("zookeeper.connection.timeout.ms", "20000");

props.put("zookeeper.sync.time.ms", "2000");

props.put("auto.commit.interval.ms", "5000");

props.put("rebalance.max.retries", "5");

props.put("rebalance.backoff.ms", "60000");

props.put("auto.commit.enable", "true");

//重點引數，是否每次都從offset最前面開始讀起

props.put("auto.offset.reset", "smallest");

大資料教程系列之Kafka和activemq對比

相關文章