流式處理新秀Flink原理與實踐

藍色de葉子發表於2018-03-16

原文網址 : https://flycode.co/archives/45663

隨著大資料技術在各行各業的廣泛應用，要求能對海量資料進行實時處理的需求越來越多，同時資料處理的業務邏輯也越來越複雜，傳統的批處理方式和早期的流式處理框架也越來越難以在延遲性、吞吐量、容錯能力以及使用便捷性等方面滿足業務日益苛刻的要求。

在這種形勢下，新型流式處理框架Flink通過創造性地把現代大規模並行處理技術應用到流式處理中來，極大地改善了以前的流式處理框架所存在的問題。飛馬網於3月13日晚，邀請到大資料技術高階架構師—曠東林，線上上直播中，曠老師向我們分享了Flink在諸多方面的創新以及它本身所具有的獨特能力。

我們主要從以下幾個部分來看：

一.流式處理的背景：

傳統的大資料處理方式一般是批處理式的，也就是說，今天所收集的資料，我們明天再把今天收集到的資料算出來，以供大家使用，但是在很多情況下，資料的時效性對於業務的成敗是非常關鍵的。

1.流式處理的背景—必要性

比如說，在入侵檢測的場景下，我們希望看到的結果是：一旦有入侵，我們能及時地作出響應。這種情況下，如果按照傳統的批處理方式，是不可能在入侵的時候實時檢測出結果的。另外，比如說在語音計算中，我們要實時監控各個虛擬器的執行狀態以及出現錯誤時的預警，這種情況下，也要求我們能夠實時監控資料，並對資料產生的各種報警，實時採取動作。由此，流式處理的必要性就顯得無疑了。

2.流式處理的背景—基礎架構

我們來看一下流式處理的基本框架。

示例裡面展示的只是部分API，除了上面那些，還有很多操作，我們一起來看下面這張圖片。

“map”就是做一些對映，比如我們把兩個字串合併成一個字串，把一個字串拆成兩個或者三個字串。

“flatMap”類似於把一個記錄拆分成兩條、三條、甚至是四條記錄。

“Filter”就類似於過濾。

“keyBy”就等效於SQL裡的group by。

“reduce”就類似於MapReduce裡的reduce。

“join”操作就有點類似於我們資料庫裡面的join。

“aggregate”是一個聚合操作，如計數、求和、求平均等。

“connect”實現把兩個流連成一個流。

“project”操作就類似於SQL裡面的snacks。

“repartition”是一個重新分割槽操作。

4.執行機制

知道Flink的程式設計模型之後，那麼Flink是怎樣去執行這些業務邏輯的呢？下面是它的執行機制。

Flink在處理資料流時，它的整個資料流裡面的資料分為兩種，一種是本身業務發給的資料，還有一種是Flink自己插到資料流裡面的資料。插入的記錄我們叫它barrier，就是柵欄，我們可以把它看成一個表示進度的標記，標記整個資料處理的狀態，它從源頭髮出。從圖中我們可以看到，不管是什麼流，它都會產生一個checkpoint barrier。