流式處理框架storm淺析（下篇）

網易雲社群發表於2019-03-04

原文網址 : https://flycode.co/archives/284303

框架ORM

本文來自網易雲社群

作者：汪建偉

舉個例子

1 實現的目標

設計一個系統，來實現對一個文字里面的單詞出現的頻率進行統計。

2 設計Topology結構：

這是一個簡單的例子，topology也非常簡單。整個topology如下：

整個topology分為三個部分：

WordReader：資料來源，負責傳送sentence

WordNormalizer：負責將sentence切分

Wordcounter:負責對單詞的頻率進行累加

3 程式碼實現

1. 構建maven環境，新增storm依賴

	<repositories>  
	      <!-- Repository where we can found the storm dependencies  -->  
	      <repository>  
	          <id>clojars.org</id>  
	          <url>http://clojars.org/repo</url>  
	      </repository>  
	</repositories>  
	<dependencies>  
	      <dependency>   
	        <groupId>storm</groupId>  
	        <artifactId>storm</artifactId>  
	        <version>0.7.1</version>  
	     </dependency>  
	</dependencies>複製程式碼

2. 定義Topology

	public class TopologyMain {  
	    public static void main(String[] args) throws InterruptedException {  
	           
	        //Topology definition  
	        TopologyBuilder builder = new TopologyBuilder();  
	        builder.setSpout("word-reader",new WordReader());  
	        builder.setBolt("word-normalizer", new WordNormalizer())  
	            .shuffleGrouping("word-reader");  
	        builder.setBolt("word-counter", new WordCounter(),1)  
	            .fieldsGrouping("word-normalizer", new Fields("word"));  
	          
	        //Configuration  
	        Config conf = new Config();  
	        conf.put("wordsFile", args[0]);  
	        conf.setDebug(false);  
	        //Topology run  
	        conf.put(Config.TOPOLOGY_MAX_SPOUT_PENDING, 1);  
	        LocalCluster cluster = new LocalCluster();  
	        cluster.submitTopology("Getting-Started-Toplogie", conf, builder.createTopology());  
	        Thread.sleep(1000);  
	        cluster.shutdown();  
	    }  
	}複製程式碼

3. 實現WordReader Spout

	public class WordReader extends BaseRichSpout {  
	  
	    private SpoutOutputCollector collector;  
	    private FileReader fileReader;  
	    private boolean completed = false;  
	    public void ack(Object msgId) {  
	        System.out.println("OK:"+msgId);  
	    }  
	    public void close() {}  
	    public void fail(Object msgId) {  
	        System.out.println("FAIL:"+msgId);  
	    }  
	  
	    public void nextTuple() {  
	        if(completed){  
	            try {  
	                Thread.sleep(1000);  
	            } catch (InterruptedException e) {  
	            }  
	            return;  
	        }  
	        String str;  
	        BufferedReader reader = new BufferedReader(fileReader);  
	        try{  
	            while((str = reader.readLine()) != null){  
	                this.collector.emit(new Values(str),str);  
	            }  
	        }catch(Exception e){  
	            throw new RuntimeException("Error reading tuple",e);  
	        }finally{  
	            completed = true;  
	        }  
	    }  
	  
	    public void open(Map conf, TopologyContext context,  
	                     SpoutOutputCollector collector) {  
	        try {  
	            this.fileReader = new FileReader(conf.get("wordsFile").toString());  
	        } catch (FileNotFoundException e) {  
	            throw new RuntimeException("Error reading file ["+conf.get("wordFile")+"]");  
	        }  
	        this.collector = collector;  
	    }  
	  
	    public void declareOutputFields(OutputFieldsDeclarer declarer) {  
	        declarer.declare(new Fields("line"));  
	    }  
	}複製程式碼

第一個被呼叫的spout方法都是public void open(Map conf, TopologyContext context, SpoutOutputCollector collector)。它接收如下引數：配置物件，在定義topology物件是建立；TopologyContext物件，包含所有拓撲資料；還有SpoutOutputCollector物件，它能讓我們釋出交給bolts處理的資料。

4. 實現WordNormalizer bolt

	public class WordNormalizer extends BaseBasicBolt {  
	  
	    public void cleanup() {}  
	  
	    public void execute(Tuple input, BasicOutputCollector collector) {  
	        String sentence = input.getString(0);  
	        String[] words = sentence.split(" ");  
	        for(String word : words){  
	            word = word.trim();  
	            if(!word.isEmpty()){  
	                word = word.toLowerCase();  
	                collector.emit(new Values(word));  
	            }  
	        }  
	    }  
	      
	    public void declareOutputFields(OutputFieldsDeclarer declarer) {  
	        declarer.declare(new Fields("word"));  
	    }  
	}複製程式碼

bolt最重要的方法是void execute(Tuple input)，每次接收到元組時都會被呼叫一次，還會再發布若干個元組。

5. 實現WordCounter bolt

	public class WordCounter extends BaseBasicBolt {  
	  
	    Integer id;  
	    String name;  
	    Map counters;  
	  
	    @Override  
	    public void cleanup() {  
	        System.out.println("-- Word Counter ["+name+"-"+id+"] --");  
	        for(Map.Entry entry : counters.entrySet()){  
	            System.out.println(entry.getKey()+": "+entry.getValue());  
	        }  
	    }  
	  
	    @Override  
	    public void prepare(Map stormConf, TopologyContext context) {  
	        this.counters = new HashMap();  
	        this.name = context.getThisComponentId();  
	        this.id = context.getThisTaskId();  
	    }  
	  
	    @Override  
	    public void declareOutputFields(OutputFieldsDeclarer declarer) {}  
	  
	    @Override  
	    public void execute(Tuple input, BasicOutputCollector collector) {  
	        String str = input.getString(0);  
	        if(!counters.containsKey(str)){  
	            counters.put(str, 1);  
	        }else{  
	            Integer c = counters.get(str) + 1;  
	            counters.put(str, c);  
	        }  
	    }  
	}複製程式碼

6. 使用本地模式執行Topology

在這個目錄下面建立一個檔案，/src/main/resources/words.txt，一個單詞一行，然後用下面的命令執行這個拓撲：mvn exec:java -Dexec.main -Dexec.args=”src/main/resources/words.txt”。

如果你的words.txt檔案有如下內容： Storm test are great is an Storm simple application but very powerful really Storm is great 你應該會在日誌中看到類似下面的內容： is: 2 application: 1 but: 1 great: 1 test: 1 simple: 1 Storm: 3 really: 1 are: 1 great: 1 an: 1 powerful: 1 very: 1 在這個例子中，每類節點只有一個例項。

附-Storm記錄級容錯的基本原理

首先來看一下什麼叫做記錄級容錯？storm允許使用者在spout中發射一個新的源tuple時為其指定一個message id, 這個message id可以是任意的object物件。多個源tuple可以共用一個message id，表示這多個源 tuple對使用者來說是同一個訊息單元。storm中記錄級容錯的意思是說，storm會告知使用者每一個訊息單元是否在指定時間內被完全處理了。那什麼叫做完全處理呢，就是該message id繫結的源tuple及由該源tuple後續生成的tuple經過了topology中每一個應該到達的bolt的處理。舉個例子。在圖4-1中，在spout由message 1繫結的tuple1和tuple2經過了bolt1和bolt2的處理生成兩個新的tuple，並最終都流向了bolt3。當這個過程完成處理完時，稱message 1被完全處理了。

在storm的topology中有一個系統級元件，叫做acker。這個acker的任務就是追蹤從spout中流出來的每一個message id繫結的若干tuple的處理路徑，如果在使用者設定的最大超時時間內這些tuple沒有被完全處理，那麼acker就會告知spout該訊息處理失敗了，相反則會告知spout該訊息處理成功了。在剛才的描述中，我們提到了”記錄tuple的處理路徑”，如果曾經嘗試過這麼做的同學可以仔細地思考一下這件事的複雜程度。但是storm中卻是使用了一種非常巧妙的方法做到了。在說明這個方法之前，我們來複習一個數學定理。

A xor A = 0.

A xor B…xor B xor A = 0，其中每一個運算元出現且僅出現兩次。

storm中使用的巧妙方法就是基於這個定理。具體過程是這樣的：在spout中系統會為使用者指定的message id生成一個對應的64位整數，作為一個root id。root id會傳遞給acker及後續的bolt作為該訊息單元的唯一標識。同時無論是spout還是bolt每次新生成一個tuple的時候，都會賦予該tuple一個64位的整數的id。Spout發射完某個message id對應的源tuple之後，會告知acker自己發射的root id及生成的那些源tuple的id。而bolt呢，每次接受到一個輸入tuple處理完之後，也會告知acker自己處理的輸入tuple的id及新生成的那些tuple的id。Acker只需要對這些id做一個簡單的異或運算，就能判斷出該root id對應的訊息單元是否處理完成了。下面通過一個圖示來說明這個過程。

上圖 spout中繫結message 1生成了兩個源tuple，id分別是0010和1011.

上圖 bolt1處理tuple 0010時生成了一個新的tuple，id為0110.

上圖 bolt2處理tuple 1011時生成了一個新的tuple，id為0111.

上圖 bolt3中接收到tuple 0110和tuple 0111，沒有生成新的tuple.

容錯過程存在一個可能出錯的地方，那就是，如果生成的tuple id並不是完全各異的，acker可能會在訊息單元完全處理完成之前就錯誤的計算為0。這個錯誤在理論上的確是存在的，但是在實際中其概率是極低極低的，完全可以忽略。

相關閱讀：流式處理框架storm淺析（上篇）

網易雲免費體驗館，0成本體驗20+款雲產品！

更多網易研發、產品、運營經驗分享請訪問網易雲社群。

相關文章：
【推薦】 3分鐘帶你瞭解負載均衡服務
【推薦】非對稱加密與證照（上篇）
【推薦】手遊破解手段介紹及易盾保護方案

淺析skynet底層框架下篇
2018-07-08
框架
Mysql增量寫入Hdfs（二） --Storm+hdfs的流式處理
2018-12-12
MySqlORM
Spark Streaming 流式處理
2018-11-13
Spark
Spark Streaming，Flink，Storm，Kafka Streams，Samza：如何選擇流處理框架
2020-06-10
SparkORMKafka框架
分散式流處理框架 Apache Storm —— 程式設計模型詳解
2019-06-28
分散式框架ApacheORM程式設計模型
ThreadPoolExecutor執行緒池內部處理淺析
2023-11-30
thread執行緒
淺析微服務框架
2019-02-26
微服務框架
Apache Beam，批處理和流式處理的融合！
2020-12-02
Apache
淺析Node是如何進行錯誤處理的
2020-04-03
WebMagic 爬蟲框架淺析
2019-02-13
Web爬蟲框架
淺析Java Web框架技術
2020-10-26
JavaWeb框架
vue.js框架原理淺析
2019-02-20
Vue.js框架
淺析大資料框架 Hadoop
2021-07-27
大資料框架Hadoop
流式處理新秀Flink原理與實踐
2018-03-16
淺談 istio 配置下發（下篇，istio 處理來自 k8s 的配置）
2024-10-27
K8S
淺析前端框架如何更新檢視
2021-09-09
前端框架
IE安全系列之：中流砥柱（I）—Jscript 5處理淺析
2020-08-19
JS
IE安全系列之：中流砥柱（II）—Jscript 9處理淺析
2020-08-19
JS
Java如何使用實時流式計算處理？
2022-03-29
Java
使用Storm、Kafka和ElasticSearch處理實時資料 -javacodegeeks
2020-10-23
ORMKafkaElasticsearchJava
淺析機器視覺在醫療影像處理中的應用
2020-12-19
視覺
淺析Asp.Net Core框架IConfiguration配置
2021-01-27
ASP.NET框架
RocketMQ Connect 構建流式資料處理平臺
2022-12-16
MQ
Serverless Streaming：毫秒級流式大檔案處理探秘
2023-02-17
Server
Storm中Trident框架詳解
2020-12-31
ORMIDE框架
淺析Spring Framework框架容器啟動過程
2018-12-17
SpringFramework框架
Dubbo原始碼淺析（一）—RPC框架與Dubbo
2023-09-28
原始碼RPC框架
使用流式計算引擎 eKuiper 處理 Protocol Buffers 資料
2022-08-18
UIProtocol
淺析富文字編輯器框架Slate.js
2021-07-08
框架JS
近萬字總結：Java8 Stream流式處理指南
2023-04-09
Java
淺談前端錯誤處理
2018-11-14
前端
二、淺談 JSON 處理技巧
2024-06-22
JSON
EGADS框架處理流程分析
2021-01-16
框架
淺析RAID0/1安全差別及處理資料安全的應對方式
2020-01-08
AI
基於 BDD 理論的 Nebula 整合測試框架重構（下篇）
2021-06-30
框架
iOS Block淺淺析
2019-03-10
iOSBloC
Go 通過 Map/Filter/ForEach 等流式 API 高效處理資料
2022-01-04
GoFilterAPI
淺入深出Vue：事件處理
2019-07-03
Vue事件