通過Sqoop實現Mysql / Oracle 與HDFS / Hbase互導資料

鬆門一枝花發表於2016-07-05

OOPMySqlOracle

下文將重點說明通過Sqoop實現Mysql與HDFS互導資料，Mysql與Hbase,Oracle與Hbase的互導最後給出命令。

一、Mysql與HDFS互導資料

環境：

宿主機器作業系統為Win7，Mysql安裝在宿主機上，宿主機地址為192.168.66.96

3臺虛擬機器作業系統為Ubuntu-12.04.1-32位

三臺虛擬機器已成功安裝Hadoop，並實現免金鑰互訪，配hosts為：

192.168.66.91 masternode

192.168.66.92 slavenode1

192.168.66.93 slavenode2

/etc/profile已配置好必備環境變數HADOOP_HOME，JAVA_HOME

實驗在masternode上進行，已成功連線mysql

步驟一，下載安裝包：

我安裝的Hadoop版本是原生hadoop-0.20.203.0，SQOOP不支援此版本，可使用CDH3版本hadoop，也可以通過拷貝相應的包到sqoop-1.2.0-CDH3B4/lib下，依然可以使用。

下載相關檔案：

http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gz

http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz

sqoop-1.2.0-CDH3B4依賴hadoop-core-0.20.2-CDH3B4.jar，所以你需要下載hadoop- 0.20.2-CDH3B4.tar.gz，解壓縮後將hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar複製到sqoop-1.2.0-CDH3B4/lib中。

另外，sqoop匯入mysql資料執行過程中依賴mysql-connector-java-*.jar，所以你需要下載mysql-connector-java-*.jar並複製到sqoop-1.2.0-CDH3B4/lib中。

步驟二，相關配置：

修改SQOOP的檔案configure-sqoop，註釋掉hbase和zookeeper檢查（除非你準備使用HABASE等HADOOP上的元件） #if [ ! -d "${HBASE_HOME}" ]; then

# echo “Error: $HBASE_HOME does not exist!”

# echo ‘Please set $HBASE_HOME to the root of your HBase installation.’

# exit 1

#fi

#if [ ! -d "${ZOOKEEPER_HOME}" ]; then

# echo “Error: $ZOOKEEPER_HOME does not exist!”

# echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’

# exit 1

#fi

修改/etc/profile環境變數檔案(su root之後,sudo gedit /etc/profile)：

新增 export SQOOP_HOME=/home/grid/sqoop

在原有PATH後新增 :$SQOOP_HOME/bin

步驟三，在mysql中建立測試使用者，測試表和資料，並測試sqoop連線mysql：

建立使用者sqoop並授權：

grant all privileges on *.* to 'sqoop'@'%' identified by 'sqoop' with grant option;

建立表空間（schema）sqoop，並建立測試表：

create table students (

id int not null primary key,

name varchar(20),

age int)

插入測試資料：

insert into students values('10001','liyang',29);

insert into students values('10002','lion',28);

insert into students values('10003','leon',26);

在masternode測試sqoop能否成功連線宿主機器上的mysql：

sqoop list-tables --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop

如果能正確顯示出sqoop表空間中的students表，就說明sqoop已經可以成功連線mysql！

步驟四，將mysql中sqoop表空間的students表的三行資料匯入HDFS:

啟動hadoop：

start-all.sh

用jps驗證啟動是否成功

顯示正在執行以下程式即為啟動成功：

2820 SecondaryNameNode

4539 Jps

2887 JobTracker

2595 NameNode

從mysql匯入資料，執行如下命令：

sqoop import --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students -m 1

驗證匯入資料是否成功：

若匯入成功，執行 hadoop dfs -ls 將能看到根目錄/user/grid/下有以表名命名的資料夾students

執行 hadoop dfs -ls /user/grid/students 能看到該資料夾中包含檔案：/user/grid/students/part-m-00000

執行 hadoop dfs -cat /user/grid/students/part-m-00000 就能看到該檔案已經包含mysql中students表的三行資料：

10001,liyang,29

10002,lion,28

10003,leon,26

步驟五，將HDFS中的資料匯入Mysql的students表中:

首先將mysql的students表資料清空：

delete from students；

然後在masternode上執行匯出資料命令：

sqoop export --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students --export-dir hdfs://masternode:9000/user/grid/students/part-m-00000

若成功，在mysql中會看到students表中的資料恢復了！

注意：過程中可能會因為slavenode的50010埠沒開啟而報錯，需用root使用者通過sudo ufw allow 50010命令開啟埠！

二、Mysql與Hbase互導資料

將mysql的資料匯入hbase的命令格式為：

sqoop import --connect jdbc:mysql://mysqlserver_IP/databaseName --username --password password --table datatable --hbase-create-table --hbase-table hbase_tablename --column-family col_fam_name --hbase-row-key key_col_name

其中，databaseName 和datatable 是mysql的資料庫和表名，hbase_tablename是要導成hbase的表名，key_col_name可以指定datatable中哪一列作為hbase新表的rowkey，col_fam_name是除rowkey之外的所有列的列族名

例如：可通過如下命令將Mysql中的students表匯入到Hbase中：

/home/grid/sqoop/bin/sqoop import --connect jdbc:mysql://192.168.66.96/sqoop --username sqoop --password liyang16 --table students --hbase-create-table --hbase-table students --column-family stuinfo --hbase-row-key id

成功執行後，可在hbase中用以下命令檢視結果：

hbase(main):011:0> scan 'students'

ROW COLUMN+CELL

10001 column=stuinfo:age, timestamp=1356759994058, value=29

10001 column=stuinfo:name, timestamp=1356759994058, value=liyang

10002 column=stuinfo:age, timestamp=1356760044478, value=28

10002 column=stuinfo:name, timestamp=1356760044478, value=lion

10003 column=stuinfo:age, timestamp=1356760044478, value=26

10003 column=stuinfo:name, timestamp=1356760044478, value=leon

3 row(s) in 0.0900 seconds

三、Oracle與Hbase互導資料

將Oracle中的dept表（列為id，name，addr）匯出至hbase中的dept表（行鍵為id，列族為deptinfo）

sqoop import --append --connect jdbc:oracle:thin:@192.168.66.90:1521:orcl --username test --password test --m 1 --table dept --columns id,name,addr --hbase-create-table --hbase-table dept --hbase-row-key id --column-family deptinfo

-------------------------------------------------------------------------------------

注：以上所有命令均實測通過，只需修改引數即可執行！

案例：通過shell指令碼實現mysql資料備份與清理
2019-03-21
指令碼MySql
通過sysbench工具實現MySQL資料庫的效能測試
2019-07-25
MySql資料庫
sqoop用法之mysql與hive資料匯入匯出
2020-12-22
OOPMySqlHive
mysql通過kafka實現資料實時同步（三）——es叢集配置
2020-11-13
MySqlKafka
通過memberlist庫實現gossip管理叢集以及叢集資料互動
2022-07-12
Go
Java通過Mybatis實現批量插入資料到Oracle中
2018-10-15
JavaMyBatisOracle
MySQL MaxCompute與AnalyticDB實現資料處理與轉換過程
2023-02-04
MySql
如果通過流資料實現實時分析？
2022-03-14
python與mysql資料庫互動
2020-01-08
PythonMySql資料庫
資料匯入終章：如何將HBase的資料匯入HDFS？
2018-10-15
通過Vue的過濾器實現資料的資料脫敏
2020-10-12
Vue過濾器
【分散式鎖】通過MySQL資料庫的表來實現-V1
2021-07-27
分散式MySql資料庫
通過Websocket與gRPC互動 | gRPC雙向資料流的互動控制系列(2)
2018-10-22
WebRPC
Laravel 通過 Macros 實現列印原生 MySQL
2020-02-24
LaravelMacROSMySql
MySQL 通過 binlog 恢復資料
2018-12-06
MySql
Flutter | 通過 ServiceLocator 實現無 context 導航
2019-07-05
FlutterContext
MySQL資料庫5：Go與MySQL的互動
2018-11-16
MySql資料庫Go
Sqoop將MySQL資料匯入到hive中
2019-01-30
OOPMySqlHive
EMQ X 與 HStreamDB 整合實踐：通過規則引擎實現資料儲存
2021-12-21
MQ
Webview獨立程式並通過AIDL實現資料通訊
2018-09-26
WebViewAI
【大資料】— sqoop ?
2018-06-11
大資料OOP
hbase與phoenix整合(使用phoenix操作hbase資料)
2019-03-17
Mysql資料庫是如何通過索引定位資料
2020-12-12
MySql資料庫索引
Restcloud ETl資料通過時間戳實現增量資料同步
2022-06-30
RESTCloud時間戳
C#連線Oracle資料庫，通過EF自動生成與資料庫表相關的實體類
2020-08-15
C#Oracle資料庫
如何透過輕易雲實現旺店通與金蝶雲資料整合
2024-10-26
通過 Swoole\Table 實現 Swoole 多程式資料共享
2020-04-24
大資料謝列3：Hdfs的HA實現
2021-01-27
大資料
【SQL】Oracle資料庫通過job定期重建同步表資料
2022-01-24
SQLOracle資料庫
[Oracle-> MySQL] Oracle通過dblink連線MySQL--Oracle 19c連線到MySQL 5.7
2019-05-11
OracleMySql
室內導航用什麼來實現？通過什麼可以實現導航功能？
2022-01-28
如何高效實現 MySQL 與 elasticsearch 的資料同步
2023-03-15
MySqlElasticsearch
HDFS 清理資料導致進入安全模式
2024-02-19
模式
通過ES-Hadoop實現Hive讀寫Elasticsearch資料
2020-09-30
HadoopHiveElasticsearch
透過資料結構實現簡易通訊錄
2020-05-19
資料結構
通過原生js實現資料的雙向繫結
2021-07-15
JS
MySQL 到Oracle 實時資料同步HYXS
2022-03-01
MySqlOracle
JSP資料互動實現過程解析及示例程式碼
2020-06-03
JS
python資料庫-MySQL與python的互動(52)
2019-07-12
Python資料庫MySql

通過Sqoop實現Mysql / Oracle 與HDFS / Hbase互導資料

相關文章