Sqoop-1.4.4工具import和export使用詳解

wangmm0218發表於2014-05-08

原文網址 : https://blog.csdn.net/wangmuming/article/details/25303831

Sqoop可以在HDFS/Hive和關係型資料庫之間進行資料的匯入匯出，其中主要使用了import和export這兩個工具。這兩個工具非常強大，提供了很多選項幫助我們完成資料的遷移和同步。比如，下面兩個潛在的需求：

業務資料存放在關聯式資料庫中，如果資料量達到一定規模後需要對其進行分析或同統計，單純使用關聯式資料庫可能會成為瓶頸，這時可以將資料從業務資料庫資料匯入（import）到Hadoop平臺進行離線分析。
對大規模的資料在Hadoop平臺上進行分析以後，可能需要將結果同步到關聯式資料庫中作為業務的輔助資料，這時候需要將Hadoop平臺分析後的資料匯出（export）到關聯式資料庫。

這裡，我們介紹Sqoop完成上述基本應用場景所使用的import和export工具，通過一些簡單的例子來說明這兩個工具是如何做到的。

工具通用選項

import和export工具有些通用的選項，如下表所示：

選項	含義說明
`--connect <jdbc-uri>`	指定JDBC連線字串
`--connection-manager <class-name>`	指定要使用的連線管理器類
`--driver <class-name>`	指定要使用的JDBC驅動類
`--hadoop-mapred-home <dir>`	指定$HADOOP_MAPRED_HOME路徑
`--help`	列印用法幫助資訊
`--password-file`	設定用於存放認證的密碼資訊檔案的路徑
`-P`	從控制檯讀取輸入的密碼
`--password <password>`	設定認證密碼
`--username <username>`	設定認證使用者名稱
`--verbose`	列印詳細的執行資訊
`--connection-param-file <filename>`	可選，指定儲存資料庫連線引數的屬性檔案

資料匯入工具import

import工具，是將HDFS平臺外部的結構化儲存系統中的資料匯入到Hadoop平臺，便於後續分析。我們先看一下import工具的基本選項及其含義，如下表所示：

選項	含義說明
`--append`	將資料追加到HDFS上一個已存在的資料集上
`--as-avrodatafile`	將資料匯入到Avro資料檔案
`--as-sequencefile`	將資料匯入到SequenceFile
`--as-textfile`	將資料匯入到普通文字檔案（預設）
`--boundary-query <statement>`	邊界查詢，用於建立分片（InputSplit）
`--columns <col,col,col…>`	從表中匯出指定的一組列的資料
`--delete-target-dir`	如果指定目錄存在，則先刪除掉
`--direct`	使用直接匯入模式（優化匯入速度）
`--direct-split-size <n>`	分割輸入stream的位元組大小（在直接匯入模式下）
`--fetch-size <n>`	從資料庫中批量讀取記錄數
`--inline-lob-limit <n>`	設定內聯的LOB物件的大小
`-m,--num-mappers <n>`	使用n個map任務並行匯入資料
`-e,--query <statement>`	匯入的查詢語句
`--split-by <column-name>`	指定按照哪個列去分割資料
`--table <table-name>`	匯入的源表表名
`--target-dir <dir>`	匯入HDFS的目標路徑
`--warehouse-dir <dir>`	HDFS存放表的根路徑
`--where <where clause>`	指定匯出時所使用的查詢條件
`-z,--compress`	啟用壓縮
`--compression-codec <c>`	指定Hadoop的codec方式（預設gzip）
`--null-string <null-string>`	果指定列為字串型別，使用指定字串替換值為null的該類列的值
`--null-non-string <null-string>`	如果指定列為非字串型別，使用指定字串替換值為null的該類列的值

下面，我們通過例項來說明，在實際中如何使用這些選項。

將MySQL資料庫中整個表資料匯入到Hive表

1 bin/sqoop import --connect jdbc:mysql://10.95.3.49:3306/workflow --table project --username shirdrn -P --hive-import -- --default-character-set=utf-8

將MySQL資料庫workflow中project表的資料匯入到Hive表中。

將MySQL資料庫中多表JION後的資料匯入到HDFS

`1`	`bin/sqoop` `import` `--connect jdbc:mysql://10.95.3.49:3306/workflow --username shirdrn -P --query` `'SELECT users.*, tags.tag FROM users JOIN tags ON (users.id = tags.user_id) WHERE $CONDITIONS'` `--split-byusers.id` `--target-dir` `/hive/tag_db/user_tags -- --default-character-set=utf-8`

這裡，使用了--query選項，不能同時與--table選項使用。而且，變數$CONDITIONS必須在WHERE語句之後，供Sqoop程式執行命令過程中使用。上面的--target-dir指向的其實就是Hive表儲存的資料目錄。

將MySQL資料庫中某個表的資料增量同步到Hive表

`1`	`bin/sqoop job --create your-sync-job --` `import` `--connect jdbc:mysql://10.95.3.49:3306/workflow --table project --username shirdrn -P --hive-import` `--incremental append --check-column` `id` `--last-value 1 -- --default-character-set=utf-8`

這裡，每次執行增量匯入到Hive表之前，都要修改--last-value的值，否則Hive表中會出現重複記錄。

將MySQL資料庫中某個表的幾個欄位的資料匯入到Hive表

`1`	`bin/sqoop` `import` `--connect jdbc:mysql://10.95.3.49:3306/workflow --username shirdrn --P --table tags --columns` `'id,tag'` `--create-hive-table -target-dir` `/hive/tag_db/tags -m 1 --hive-table tags --hive-import` `-- --default-character-set=utf-8`

我們這裡將MySQL資料庫workflow中tags表的id和tag欄位的值匯入到Hive表tag_db.tags。其中--create-hive-table選項會自動建立Hive表，--hive-import選項會將選擇的指定列的資料匯入到Hive表。如果在Hive中通過SHOW TABLES無法看到匯入的表，可以在conf/hive-site.xml中顯式修改如下配置選項：

1

<property>

2

     <name>javax.jdo.option.ConnectionURL</name>

3

     <value>jdbc:derby:;databaseName=hive_metastore_db;create=true</value>

4

</property>

然後再重新執行，就能看到了。

使用驗證配置選項

1 sqoop import --connect jdbc:mysql://db.foo.com/corp --table EMPLOYEES --validate --validator org.apache.sqoop.validation.RowCountValidator --validation-threshold org.apache.sqoop.validation.AbsoluteValidationThreshold --validation-failurehandler org.apache.sqoop.validation.AbortOnFailureHandler

上面這個是官方使用者手冊上給出的用法，我們在實際中還沒用過這個，有感興趣的可以驗證嘗試一下。

資料匯出工具export

export工具，是將HDFS平臺的資料，匯出到外部的結構化儲存系統中，可能會為一些應用系統提供資料支援。我們看一下export工具的基本選項及其含義，如下表所示：

選項	含義說明
`--validate <class-name>`	啟用資料副本驗證功能，僅支援單表拷貝，可以指定驗證使用的實現類
`--validation-threshold <class-name>`	指定驗證門限所使用的類
`--direct`	使用直接匯出模式（優化速度）
`--export-dir <dir>`	匯出過程中HDFS源路徑
`-m,--num-mappers <n>`	使用n個map任務並行匯出
`--table <table-name>`	匯出的目的表名稱
`--call <stored-proc-name>`	匯出資料呼叫的指定儲存過程名
`--update-key <col-name>`	更新參考的列名稱，多個列名使用逗號分隔
`--update-mode <mode>`	指定更新策略，包括：updateonly（預設）、allowinsert
`--input-null-string <null-string>`	使用指定字串，替換字串型別值為null的列
`--input-null-non-string <null-string>`	使用指定字串，替換非字串型別值為null的列
`--staging-table <staging-table-name>`	在資料匯出到資料庫之前，資料臨時存放的表名稱
`--clear-staging-table`	清除工作區中臨時存放的資料
`--batch`	使用批量模式匯出

下面，我們通過例項來說明，在實際中如何使用這些選項。這裡，我們主要結合一個例項，講解如何將Hive中的資料匯入到MySQL資料庫。
首先，我們準備幾個表，MySQL資料庫為tag_db，裡面有兩個表，定義如下所示：

01

CREATE TABLE tag_db.users
 (

02

  id INT(11) NOT NULL AUTO_INCREMENT,

03

  name VARCHAR(100) NOT NULL,

04

  PRIMARY KEY (`id`)

05

)
 ENGINE=InnoDB DEFAULT CHARSET=utf8;

06

07

CREATE TABLE tag_db.tags
 (

08

  id INT(11) NOT NULL AUTO_INCREMENT,

09

  user_id INT NOT NULL,

10

  tag VARCHAR(100) NOT NULL,

11

  PRIMARY KEY (`id`)

12

)
 ENGINE=InnoDB DEFAULT CHARSET=utf8;

這兩個表中儲存的是基礎資料，同時對應著Hive中如下兩個表：

01

CREATE TABLE users
 (

02

  id INT,

03

  name STRING

04

);

05

06

CREATE TABLE tags
 (

07

  id INT,

08

  user_id INT,

09

  tag
 STRING

10

);

我們首先在上述MySQL的兩個表中插入一些測試資料：

1

INSERT INTO tag_db.users(name) VALUES('jeffery');

2

INSERT INTO tag_db.users(name) VALUES('shirdrn');

3

INSERT INTO tag_db.users(name) VALUES('sulee');

4

5

INSERT INTO tag_db.tags(user_id,
 tag) VALUES(1, 'Music');

6

INSERT INTO tag_db.tags(user_id,
 tag) VALUES(1, 'Programming');

7

INSERT INTO tag_db.tags(user_id,
 tag) VALUES(2, 'Travel');

8

INSERT INTO tag_db.tags(user_id,
 tag) VALUES(3, 'Sport');

然後，使用Sqoop的import工具，將MySQL兩個表中的資料匯入到Hive表，執行如下命令列：

`1`	`bin/sqoop import --connect jdbc:mysql://10.95.3.49:3306/tag_db --table users --username shirdrn -P --hive-import -- --default-character-set=utf-8`

`2`	`bin/sqoop import --connect jdbc:mysql://10.95.3.49:3306/tag_db --table tags --username shirdrn -P --hive-import -- --default-character-set=utf-8`

匯入成功以後，再在Hive中建立一個用來儲存users和tags關聯後資料的表：

1

CREATE TABLE user_tags
 (

2

  id
 STRING,

3

  name STRING,

4

  tag
 STRING

5

);

執行如下HQL語句，將關聯資料插入user_tags表：

1

FROM users
 u JOIN tags
 t ON u.id=t.user_id INSERT INTO TABLE user_tags SELECT CONCAT(CAST(u.id AS STRING),CAST(t.id AS STRING)),
 u.name,
 t.tag;

將users.id與tags.id拼接的字串，作為新表的唯一欄位id，name是使用者名稱，tag是標籤名稱。
再在MySQL中建立一個對應的user_tags表，如下所示：

1

CREATE TABLE tag_db.user_tags
 (

2

  id varchar(200) NOT NULL,

3

  name varchar(100) NOT NULL,

4

  tag varchar(100) NOT NULL

5

);

使用Sqoop的export工具，將Hive表user_tags的資料同步到MySQL表tag_db.user_tags中，執行如下命令列：

`1`	`bin/sqoop` `export` `--connect jdbc:mysql://10.95.3.49:3306/tag_db --username shirdrn --P --table user_tags --export-dir` `/hive/user_tags --input-fields-terminated-by` `'\001'` `-- --default-character-set=utf-8`

執行匯出成功後，可以在MySQL的tag_db.user_tags表中看到對應的資料。
如果在匯出的時候出現類似如下的錯誤：

01

14/02/27
 17:59:06 INFO mapred.JobClient: Task Id : attempt_201402260008_0057_m_000001_0, Status : FAILED

02

java.io.IOException:
 Can't export data, please check task tracker logs

03

     at
 org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:112)

04

     at
 org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:39)

05

     at
 org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)

06

     at
 org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)

07

     at
 org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)

08

     at
 org.apache.hadoop.mapred.MapTask.run(MapTask.java:364)

09

     at
 org.apache.hadoop.mapred.Child$4.run(Child.java:255)

10

     at
 java.security.AccessController.doPrivileged(Native Method)

11

     at
 javax.security.auth.Subject.doAs(Subject.java:396)

12

     at
 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190)

13

     at
 org.apache.hadoop.mapred.Child.main(Child.java:249)

14

Caused
 by: java.util.NoSuchElementException

15

     at
 java.util.AbstractList$Itr.next(AbstractList.java:350)

16

     at
 user_tags.__loadFromFields(user_tags.java:225)

17

     at
 user_tags.parse(user_tags.java:174)

18

     at
 org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:83)

19

     ...
 10 more

通過指定欄位分隔符選項--input-fields-terminated-by，指定Hive中表欄位之間使用的分隔符，供Sqoop讀取解析，就不會報錯了。

轉：http://shiyanjun.cn/archives/624.html

詳解es6的export和import命令
2021-10-12
ExportImport
export/import
2024-04-25
ExportImport
require 和 import 詳解
2018-12-11
UIImport
import、require 、export、export default、exports、module exports
2019-02-16
ImportUIExport
JavaScript中的export、export default、exports和module.exports（export、export default、exports使用詳細）
2024-09-03
JavaScriptExport
JS/TS 的 import 和 export 用法小結
2019-02-16
JSImportExport
import,export的支援[nodejs]
2018-05-07
ImportExportNodeJS
Import Error: cannot import name ‘export_saved_model
2020-12-18
ImportErrorExport
Export/import Datas To/from a Csv File
2019-02-16
ExportImport
ES6規範import和export用法總結
2019-01-18
ImportExport
如何讓瀏覽器支援 import 和export語法
2018-06-04
瀏覽器ImportExport
新手關於import/export的理解
2019-04-04
ImportExport
ES6模組化之export和import的用法
2019-03-04
ExportImport
DB2 export詳解
2018-04-27
DB2Export
ES6 module模組 import export
2020-12-11
ImportExport
node識別es6的 import／export
2018-08-30
ImportExport
這幾個概念你可能還是沒搞清require、import和export
2019-05-06
UIImportExport
CommonJS,AMD,CMD,ES6,require 和 import 詳解
2018-05-15
JSUIImport
探討ES6的import export default 和CommonJS的require module.exports
2019-02-02
ImportExportJSUI
export 和 export default 區別
2019-09-07
Export
react-native 之匯入(import)、匯出(export)深刻解析
2018-08-21
ReactImportExport
export和export default的區別
2020-11-03
Export
link和@import引入css 區別，不建議使用@import
2020-11-13
ImportCSS
Spring中@Import註解的使用
2021-05-13
SpringImport
完全可傳輸的匯出/匯入（full transportable export/import）
2020-11-25
ExportImport
module.exports、exports 、export default之間的差異區別及與require、import的使用
2018-10-08
ExportUIImport
slowhttptest慢速攻擊工具使用詳解
2021-01-31
HTTP
valgrind和Kcachegrind效能分析工具詳解
2021-02-01
web前端技術分享：詳解模組化require 和 import的區別
2021-08-27
Web前端UIImport
通過 babel-node 執行 ES6 import/export 語法
2019-01-28
BabelImportExport
RabbitMQ的詳解和使用
2024-06-02
MQ
ES6 export 和 export default的區別
2019-01-30
Export
『政善治』Postman工具 — 14、NewMan工具的使用詳解
2021-05-27
Postman
【Linux工具】yum和gdb詳細使用教程。
2024-02-02
Linux
@import註解
2020-09-26
Import
mongodb和nodejs mongoose使用詳解
2019-02-16
MongoDBNodeJS
pthread_once詳解和使用
2018-05-29
thread
Git詳解和Github的使用
2021-03-13
Github
SAP UI5 Gateway Export 和 Client Export 的比較
2022-11-27
UIGatewayExportclient

Sqoop-1.4.4工具import和export使用詳解

相關文章