Mysql增量寫入Hdfs（一） --將Mysql資料寫入Kafka Topic

zzzzMing發表於2018-12-08

原文網址 : https://www.cnblogs.com/listenfwind/p/10089082.html

MySqlKafka

一. 概述

在大資料的靜態資料處理中，目前普遍採用的是用Spark+Hdfs（Hive/Hbase）的技術架構來對資料進行處理。

但有時候有其他的需求，需要從其他不同資料來源不間斷得采集資料，然後儲存到Hdfs中進行處理。而追加（append）這種操作在Hdfs裡面明顯是比較麻煩的一件事。所幸有了Storm這麼個流資料處理這樣的東西問世，可以幫我們解決這些問題。

不過光有Storm還不夠，我們還需要其他中介軟體來協助我們，讓所有其他資料來源都歸於一個通道。這樣就能實現不同資料來源以及Hhdfs之間的解耦。而這個中介軟體Kafka無疑是一個很好的選擇。

這樣我們就可以讓Mysql的增量資料不停得丟擲到Kafka，而後再讓storm不停得從Kafka對應的Topic讀取資料並寫入到Hdfs中。

二.binlog和maxwell介紹

2.1Mysql binlog介紹

binlog即Mysql的二進位制日誌。它可以說是Mysql最重要的日誌了，它記錄了所有的DDL和DML(除了資料查詢語句)語句，以事件形式記錄，還包含語句所執行的消耗的時間，MySQL的二進位制日誌是事務安全型的。

上面所說的提到了DDL和DML，可能有些同學不瞭解，這裡順便說一下：

DDL：資料定義語言DDL用來建立資料庫中的各種物件-----表、檢視、索引、同義詞、聚簇等如：CREATETABLE/VIEW/INDEX/SYN/CLUSTER...
DML：資料操縱語言DML主要有三種形式：插入（INSERT），更新（UPDATE），以及刪除（DELETE）。

在Mysql中，binlog預設是不開啟的，因為有大約1%（官方說法）的效能損耗，如果要手動開啟，流程如下：

vi編輯開啟mysql配置檔案：

vi /usr/local/mysql/etc/my.cnf

在[mysqld]區塊設定/新增如下，

log-bin=mysql-bin

注意一定要在[mysqld]下。

重啟Mysql

pkill mysqld
/usr/local/mysql/bin/mysqld_safe --user=mysql &

2.2kafka

這裡只對Kafka做一個基本的介紹，更多的內容可以度娘一波。

Mysql增量寫入Hdfs（一） --將Mysql資料寫入Kafka Topic

上面的圖片是kafka官方的一個圖片，我們目前只需要關注Producers和Consumers就行了。

Kafka是一個分散式釋出-訂閱訊息系統。分散式方面由Zookeeper進行協同處理。訊息訂閱其實說白了吧，就是一個佇列，分為消費者和生產者，就像上圖中的內容，有資料來源充當Producer生產資料到kafka中，而有資料充當Consumers，消費kafka中的資料。

Mysql增量寫入Hdfs（一） --將Mysql資料寫入Kafka Topic

上圖中的offset指的是資料的寫入以及消費的位置的資訊，這是由Zookeeper管理的。也就是說，當Consumers重啟或是怎樣，需要重新從kafka讀取訊息時，總不能讓它從頭開始消費資料吧，這時候就需要有個記錄能告訴你從哪裡開始重新讀取。這就是offset。

kafka中還有一個至關重要的概念，那就是topic。不過這個其實還是很好理解的，比如你要訂閱一些訊息，你肯定是不會訂閱所有訊息的吧，你只需要訂閱你感興趣的主題，比如攝影，程式設計，搞笑這些主題。而這裡主題的概念其實和topic是一樣的。總之，可以將topic歸結為通道，kafka中有很多個通道，不同的Producer向其中一個通道生產資料，也就是拋資料進去這個通道，Comsumers不停得消費通道中的資料。

而我們要做的就是將Mysql binlog產生的資料拋到kafka中充當作生產者，然後由storm充當消費者，不停得消費資料並寫入到Hdfs中。

至於怎麼將binlog的資料拋到kafka，別急，下面我們就來介紹。

2.3maxwell

maxwell這個工具可以很方便得監聽Mysql的binlog，然後每當binlog發生變化時，就會以json格式丟擲對應的變化資料到Kafka中。比如當向mysql一張表中插入一條語句的時候，maxwell就會立刻監聽到binlog中有對應的記錄增加，然後將一些資訊包括插入的資料都轉化成json格式，然後拋到kafka指定的topic中。

下載地址在這裡可以找到。

除了Kafka外，其實maxwell還支援寫入到其他各種中介軟體，比如redis。
同時maxwell是比較輕量級的工具，只需要在mysql中新建一個資料庫供它記錄一些資訊，然後就可以直接執行。

三.使用maxwell監聽binlog

接下來我們將的是如果使用maxwell，讓它監聽mysql的binlog並拋到kafka中。maxwell主要有兩種執行方式。一種是使用配置檔案，另一種則是在命令列中新增引數的方式執行。這裡追求方便，只使用命令列的方式進行演示。

這裡介紹一下簡單的將資料拋到kafka的命令列指令碼吧。

bin/maxwell --user='maxwell' --password='XXXXXX' --host='127.0.0.1' \
   --producer=kafka --kafka.bootstrap.servers=localhost:9092 --kafka_topic=maxwell --port=3306

各項引數說明如下：

user：mysql使用者名稱
password：mysql密碼
host：Mysql地址
producer：指定寫入的中介軟體型別，比如還有redies
kafka.bootstrap.servers：kafka的地址
kafka_topic：指明寫入到kafka哪個topic
port：mysql埠

啟動之後，maxwell便開始工作了，當然如果你想要讓這條命令可以在後臺執行的話，可以使用Linux的nohup命令，這裡就不多贅述，有需要百度即可。

這樣配置的話通常會將整個資料庫的增刪改都給拋到kafka，但這樣的需求顯然不常見，更常見的應該是具體監聽對某個庫的操作，或是某個表的操作。

在升級到1.9.2（最新版本）後，maxwell為我們提供這樣一個引數，讓我們可以輕鬆實現上述需求：--filter。

這個引數通常包含兩個配置項，exclude和include。意思就是讓你指定排除哪些和包含哪些。比如我只想監聽Adatabase庫下的Atable表的變化。我可以這樣。

--filter='exclude: *.*, include: Adatabase.Atable'

這樣我們就可以輕鬆實現監聽mysqlbinlog的變化，並可以定製自己的需求。

OK，這一章我們介紹了mysql binlog，kafka以及maxwell的一些內容，下一篇我們將會看到storm如何寫入hdfs以及定製一些策略。see you~~

Mysql增量寫入Hdfs（二） --Storm+hdfs的流式處理
2018-12-12
MySqlORM
Logstash讀取Kafka資料寫入HDFS詳解
2019-03-20
Kafka
Spark 如何寫入HBase/Redis/MySQL/Kafka
2021-09-09
SparkRedisMySqlKafka
FlinkSQL寫入Kafka/ES/MySQL示例-JAVA
2021-06-18
KafkaMySqlJava
17-Flink消費Kafka寫入Mysql
2019-03-07
KafkaMySql
python——將excel檔案寫入mysql資料庫中
2018-08-14
PythonExcelMySql資料庫
MySQL資料寫入過程介紹
2022-12-01
MySql
kafka connect，將資料批量寫到hdfs完整過程
2018-03-23
Kafka
通過Python將監控資料由influxdb寫入到MySQL
2021-05-15
PythonUXMySql
MySQL的寫入資料儲存過程
2022-06-10
MySql儲存過程
利用flink從kafka接收訊息，統計結果寫入mysql，訊息寫入hive
2020-12-31
KafkaMySqlHive
《從0到1學習Flink》—— Flink 讀取 Kafka 資料批量寫入到 MySQL
2019-02-24
KafkaMySql
Flink 1.9 實戰：使用 SQL 讀取 Kafka 並寫入 MySQL
2019-09-06
KafkaMySql
Python 利用pandas和mysql-connector獲取Excel資料寫入到MySQL資料庫
2023-10-27
PythonMySqlExcel資料庫
如何將 EXCEL 資料寫入資料庫
2020-06-16
Excel資料庫
python excel 內容寫入mysql
2021-09-09
PythonExcelMySql
Flink 實踐教程 - 入門（4）：讀取 MySQL 資料寫入到 ES
2021-11-09
MySql
一個即將寫入MySQL原始碼的官方bug解決之路
2020-11-17
MySql原始碼
寫給新手的MySQL入門指南
2018-11-12
MySql
MySQL 寫入壓測幾種方式
2024-05-29
MySql
Flink CDC 系列 - 實現 MySQL 資料實時寫入 Apache Doris
2021-12-09
MySqlApache
用 logstash 從 kafka 讀取資料寫入 Elasticsearch（qbit）
2022-02-03
KafkaElasticsearch
C# 將資料寫入到Excel表格
2024-08-25
C#Excel
每秒570000的寫入，MySQL如何實現？
2019-12-18
MySql
MySQL 每秒 570000 的寫入，如何實現？
2019-07-12
MySql
Sqoop將MySQL資料匯入到hive中
2019-01-30
OOPMySqlHive
資料匯入終章：如何將HBase的資料匯入HDFS？
2018-10-15
python遠端連線mysql以及pandas.DataFrame.to_sql寫入資料庫
2024-06-27
PythonMySql資料庫
odps平臺將資料匯入到hdfs
2018-12-24
MySQL:MGR 學習(2):Write set(寫集合)的寫入過程
2018-09-17
MySql
spark寫入hive資料
2019-04-09
SparkHive
MongoDB寫入資料策略
2023-03-02
MongoDB
MySQL入門系列：MySQL資料型別
2019-03-07
MySql資料型別
Java mysql blob 資料讀寫操作
2021-07-07
JavaMySql
MySQL資料的匯入
2024-10-17
MySql
【Python】將網格資料寫入到VTK檔案
2024-08-29
Python
透過 C# 將資料寫入到Excel表格
2024-08-12
C#Excel
以太坊·將資料寫入到區塊鏈中
2018-04-18
區塊鏈

Mysql增量寫入Hdfs（一） --將Mysql資料寫入Kafka Topic

一. 概述

二.binlog和maxwell介紹

2.1Mysql binlog介紹

2.2kafka

2.3maxwell

三.使用maxwell監聽binlog

OK，這一章我們介紹了mysql binlog，kafka以及maxwell的一些內容，下一篇我們將會看到storm如何寫入hdfs以及定製一些策略。see you~~

相關文章