Sqoop安裝使用手冊_雲帆大資料
Sqoop安裝使用手冊
1. Sqoop介紹
Sqoop是一個用來將Hadoop和關係型資料庫中的資料相互轉移的工具,可以將一個關係型資料庫(例如:MySQL ,Oracle ,Postgres等)中的資料導進到Hadoop的HDFS中,也可以將HDFS的資料導進到關係型資料庫中。
2. 安裝配置
1. 環境準備
2. 安裝配置
在master節點上用hadoop使用者登陸,解壓Sqoop安裝包並配置環境變數。
複製sqoop-1.4.3-cdh4.7.0.tar.gz到/home/hadoop目錄,解壓:
複製mysql的jdbc庫mysql-connector-java.jar到~/sqoop-1.4.3-cdh4.7.0/lib。
修改~/.bashrc環境變數,在 .bashrc 的末尾插入以下變數:
儲存並更新~/.bashrc:
3. 測試資料準備
在MySQL資料庫test建測試表hadoop_related並新增測試資料:
4. 用Sqoop連線檢視資料庫
列出mysql資料庫中的所有資料庫
連線mysql並列出test資料庫中的表
5. 與Hadoop匯入匯出
1. 從資料庫匯出表的資料到HDFS上檔案
可以透過-m設定並行資料,即map的資料,決定檔案的個數。
預設目錄是/user/${user.name}/${tablename},可以透過–target-dir設定hdfs目標目錄。
2. 將hdfs上的資料匯入到關聯式資料庫中
目標表的表結構需要先建立出來,否則export操作會直接失敗。
驗證結果:
- 資料會首先寫到hadoop_related_hdfs_tmp表,匯入操作成功後,再由hadoop_related_hdfs_tmp表匯入到hadoop_related_hdfs結果表中,同時會清除hadoo_related_hdfs_tmp表。
- 如果有map失敗,則成功的map會將資料寫入tmp表,export任務失敗,同時tmp表的資料會被保留。
- 如果tmp中已有資料,則此export操作會直接失敗,可以使用–clear-staging-table指定在執行前清除中間表。
6. 匯入資料到Hbase
使用sqoop把mysql中資料匯入hbase中
進入hbase shell
關於將Hbase的資料匯入到mysql裡,Sqoop並不是直接支援的,一般採用如下3種方法:
- 將Hbase資料扁平化成HDFS檔案,然後再由Sqoop匯入.
- 將Hbase資料匯入Hive表中,然後再匯入mysql。
- 直接使用Hbase的Java API讀取表資料,直接向mysql匯入不需要使用Sqoop。
7. 與Hive匯入匯出
1. 從資料庫匯出表的資料到Hive
2. 將Hive上的資料匯入到關聯式資料庫中
將Hive中的表資料匯入到MySQL,MySQL中的目標表必須提前建立好。
8. sqoop-eval使用
eval可以很快的使用sql語句對資料庫進行操作,這使得使用者在執行import操作之前檢查sql語句是否正確。
9. 增量匯入
Sqoop提供了原生增量匯入的特性,包含以下三個關鍵引數:
Argument | Description |
---|---|
–check-column (col) | 指定一個“標誌列”用於判斷增量匯入的資料範圍,該列不能是字元型,最好是數字或者日期型(這個很好理解吧)。 |
–last-value (value) | 指定增量模式,包含“追加模式” append 和“最後修改模式” lastmodified (該模式更滿足常見需求)。 |
–last-value (value) | 指定“標誌列”上次匯入的上界。如果“標誌列”是最後修改時間,則–last-value為上次執行匯入指令碼的時間。 |
結合Saved Jobs機制,可以實現重複排程增量更新Job時 –last-value 欄位的自動更新賦值,再結合cron或者oozie的定時排程,可實現真正意義的增量更新。
增量job的建立:
執行Job:
轉載請註明:雲帆大資料學院 ? Sqoop安裝使用手冊
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29918394/viewspace-1765025/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Rational ClearQuest 安裝、配置、使用手冊
- sqoop安裝及資料遷移OOP
- 【大資料】— sqoop ?大資料OOP
- Sqoop之 Sqoop 1.4.6 安裝OOP
- SQOOP安裝部署OOP
- sqoop的安裝OOP
- Sqoop2安裝OOP
- Linux使用手冊-vi使用手冊Linux
- sqoop 安裝與配置使用OOP
- Sqoop安裝及驗證OOP
- 大資料學習筆記(十四)-Sqoop大資料筆記OOP
- golang常用手冊:資料型別、變數和常量Golang資料型別變數
- Sqoop的介紹和安裝OOP
- Sqoop 1.99.6 安裝和使用OOP
- TcpDump使用手冊TCP
- MyBatis 使用手冊MyBatis
- sqlmap使用手冊SQL
- Mybatis應用手冊MyBatis
- Tmux使用手冊UX
- Docker使用手冊Docker
- Promise使用手冊Promise
- Redis使用手冊Redis
- iptables 使用手冊
- DotProject 使用手冊Project
- Zabbix 使用手冊
- CDH安裝大資料叢集大資料
- 全志R16 DragonBoard使用手冊資料下載Go
- 大資料盛宴!帆軟成功舉辦東北及華南地區大資料巡展大資料
- CentOS6.5安裝sqoop2CentOSOOP
- Windows環境下達夢資料庫安裝及解除安裝手冊Windows資料庫
- git 基本使用手冊Git
- Cobra框架使用手冊框架
- Memcached Client 使用手冊client
- jQuery使用手冊(收藏)jQuery
- 儀器使用手冊
- Linux環境下達夢資料庫安裝及解除安裝手冊Linux資料庫
- ubuntu 安裝使用 Sqoop1.4.6 + hive 2.3.0UbuntuOOPHive
- 大資料基礎-kakfa的安裝教程大資料