Sqoop的介紹和安裝

曉乎發表於2022-11-29

原文網址 : https://www.cnblogs.com/helloworldcode/p/16935118.html

OOP

sqoop下載地址：https://share.weiyun.com/woVbfnfS

或者 https://archive.apache.org/dist/sqoop/1.99.7/

一、Sqoop簡介

sqoop 是 apache 旗下一款“Hadoop 和關聯式資料庫伺服器之間傳送資料”的工具。

核心的功能有兩個：匯入、匯出

匯入資料：MySQL，Oracle 匯入資料到 Hadoop 的 HDFS、HIVE、HBASE 等資料儲存系統

匯出資料：從 Hadoop 的檔案系統中匯出資料到關聯式資料庫 mysql 等

sqoop本質是遷移資料，遷移的方式：就是把sqoop的遷移命令轉換成MR程式

hive本質就是執行計算，依賴於HDFS儲存資料，把SQL轉換成MR程式

二、Sqoop的安裝

(1) 解壓到指定目錄：

tar -zxvf /bigData/software/sqoop-1.99.7-bin-hadoop200.tar.gz -C /bigData/install/

(2) 修改mapreduce.configuration.directory的目錄

cd /bigData/install/sqoop-1.99.7-bin-hadoop200/conf/

修改sqoop.properties檔案修改org.apache.sqoop.submission.engine.mapreduce.configuration.directory=/bigData/install/hadoop-3.1.4/etc/hadoop/配置

（3）配置環境變數

新增export SQOOP_HOME=/bigData/install/sqoop-1.99.7-bin-hadoop200，在PATH路徑下新增$SQOOP_HOME/bin路徑。

（4）新增mysql驅動將mysql驅動包放在sqoop安裝目錄的server/lib目錄下。

ll |grep mysql

(5) 驗證配置

① sqoop2-tool upgrade

若出現“Caused by: java.lang.SecurityException: sealing violation: package org.apache.derby.impl.jdbc.authentication is sealed”錯誤。

需要檢視/bigData/install/sqoop-1.99.7-bin-hadoop200/bin目錄下的derby版本資訊和hive目錄下的版本資訊做對比。

將sqoop目錄下的derby重新命名

cd /bigData/install/sqoop-1.99.7-bin-hadoop200/server/lib/

mv derby-10.8.2.2.jar derby-10.8.2.2.jar.back

hive目錄下的derby庫複製過來。

cp /bigData/install/apache-hive-3.1.2-bin/lib/derby-10.14.1.0.jar ./

使用如下命令檢視版本是否正確

ll *derby*

再次輸入如下命令，驗證
sqoop2-tool upgrade

② 繼續驗證 sqoop2-tool verify

若出現“Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V”錯誤，

需要對比hive與sqoop目錄下的guava庫的版本：

cd /bigData/install/apache-hive-3.1.2-bin/lib

ll *guava*

檢視sqoop下的guava版本,發現當前sqoop使用的guava版本均為11.0.2，需要修改：

cd /bigData/install/sqoop-1.99.7-bin-hadoop200

find . -name *guava*

將名稱修改掉：mv ./tools/lib/guava-11.0.2.jar xxxxxxxxx/guava-11.0.2.jar.back

然後將hive下的guava複製到sqoop目錄下：cp ./server/lib/guava-27.0-jre.jar xxx/

② 繼續驗證 sqoop2-tool verify

三、啟動服務端/客戶端

啟動命令 sqoop2-server start
關閉命令 sqoop2-server stop

檢視程式資訊：

開啟cli客戶端命令：sqoop2-shell

四、使用

1、登入mysql，建立對應的資料庫和表：

create database test;

use test;

CREATE TABLE student( id int, name varchar(10), PRIMARY KEY(id ));

insert into student values(1,'gqx');

insert into student values(2,'LiSi');

insert into student values(3,'WangWu');

select * from student;

2、準備hdfs實驗資料

$ vim test01.txt

4,'Alice',

5,'Bob'

$ hdfs dfs -put test01.txt /

3、修改hadoop配置

為了能檢視sqoop2 status,編輯hadoop的 mapred-site.xml

vim $HADOOP_HOME/etc/hadoop/mapred-site.xml

新增如下配置

  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>node1:10020</value>
  </property>
  <property>

4、建立連結配置

列舉所有連線：show connector

建立hdfs的連線： create link --connector hdfs-connector

建立mysql的連線：create link --connector generic-jdbc-connector

檢視已經建好的link

5、建立job

sqoop:000>create job -f jdbc-link01 -t hdfs-link01
Creating job for links with from name jdbc-link01 and to name hdfs-link01
Please fill following values to create new job object
Name: jdbctohdfs01   (#job名字，必填）
Database source
Schema name: dbtest1   （#資料庫名字，必填）
Table name: test1   （#資料表名字，必填）
SQL statement:  （#就是sql查詢語句，可選的，直接回車就好）
Column names:   （# 重寫資料相關的一些引數，可選，直接回車就好）
There are currently 0 values in the list:
element#
Partition column:    （#分割的列，也就是將最終檔案分割為多個，預設匯入到一個檔案）
Partition column nullable:
Boundary query:
Incremental read
Check column:
Last value:
Target configuration
Override null value:
Null value:
File format:   （#檔案格式，這裡選擇0，TEXT_FILE）
  0 : TEXT_FILE
  1 : SEQUENCE_FILE
  2 : PARQUET_FILE
Choose: 0
Compression codec:   （#壓縮編碼器，這裡不壓縮，選擇0）
  0 : NONE
  1 : DEFAULT
  2 : DEFLATE
  3 : GZIP
  4 : BZIP2
  5 : LZO
  6 : LZ4
  7 : SNAPPY
  8 : CUSTOM
Choose: 0
Custom codec:    （#自定義的編碼器，這裡也不需要，直接回車）
Output directory: /hdfstest1    （#輸出hdfs路徑,必填切目錄下必須為空，可以為沒有建的目錄）
Append mode:    （#用於指定是否是在已存在匯出檔案的情況下將新資料追加到資料檔案中。可選回車）
Throttling resources
Extractors:   （#可選，對應 mapreduce 的 job 中 map 的數量。這裡直接回車）
Loaders:     (#可選，對應 mapreduce 的 job 中的 reduce 的數量。這裡直接回車)
Classpath configuration
Extra mapper jars:
There are currently 0 values in the list:
element#    (# Classpath配置，如：需要新增任務額外的jar包，這裡直接回車）
Job was successfully updated with status OK

參考資料：sqoop1.99.7安裝、使用及部分問題

Hadoop Sqoop介紹
2018-08-27
Hadoop
1- hive和sqoop元件介紹
2019-07-28
HiveOOP元件
Tensorflow介紹和安裝
2018-04-02
SQOOP安裝部署
2020-11-22
OOP
1.Pytest 介紹和安裝
2020-12-24
ccs的介紹，安裝和使用入門
2024-10-30
Sqoop2安裝
2021-09-09
OOP
[Windows環境]nvm工具的介紹和安裝
2024-07-11
Windows
MySQL 安裝介紹
2019-11-22
MySql
Go 安裝介紹
2020-09-28
Go
docker介紹、安裝
2024-07-24
Docker
肖sir__jmeter 安裝和介紹(16.0)
2024-04-11
JMeter
redis框架介紹與安裝（mac 和 windows）
2020-08-11
Redis框架MacWindows
sqoop 安裝與配置使用
2021-09-09
OOP
Nginx 安裝配置介紹
2019-11-22
Nginx
安裝apache及介紹
2020-11-10
Apache
redis介紹與安裝
2024-10-09
Redis
BookKeeper 介紹(2)--安裝
2024-06-16
RocketMQ 介紹與安裝
2022-01-15
MQ
SketchUp 2020安裝教程和SketchUp 2020功能介紹
2020-11-02
rqt的安裝及詳細介紹
2024-08-06
QT
Prism:框架介紹與安裝
2024-08-28
框架
RPM包安裝與介紹
2021-09-10
Webpack及npm介紹安裝
2021-09-09
WebNPM
Hue--介紹及安裝
2021-01-04
Python安裝PyMongo的方法詳細介紹
2019-01-17
PythonGo
DKHadoop安裝的環境準備介紹
2018-12-05
Hadoop
Hadoop叢集中Hbase的介紹、安裝、使用
2022-12-20
Hadoop
WSL 2 的安裝過程（以及介紹）
2022-06-21
redis系列：redis介紹與安裝
2018-07-10
Redis
MongoDB基本介紹與安裝（1）
2021-12-31
MongoDB
Docker介紹及安裝詳解
2021-08-06
Docker
Poetry（1）Poetry介紹與安裝
2021-10-20
Appium 介紹及環境安裝
2021-01-13
APP
Linux環境Sqoop安裝配置及使用
2019-03-09
LinuxOOP
微服務系列（二）GRPC的介紹與安裝
2021-06-03
微服務RPC
percona-toolkit安裝方法和主要工具用途彙總介紹
2019-04-16
閘道器服務Kong和konga介紹安裝使用教程
2021-08-24