2020-09-27【學習筆記】【企業資料湖】五、基於Apache Sqoop的批量資料獲取
一、資料湖背景中的資料獲取
1、資料獲取層
2、批量資料獲取--技術路線圖
二、為什麼使用sqoop
sqoop是一款非常常用的用於向ApacheHadoop傳輸資料的工具
1、sqoop簡史
最早由cloudera開發維護,分為1.X,2.X版本,區別很大
2、sqoop的優勢
- 支援多種結構化資料
- sqoop可以將etl中某些環境剔除,轉移到hadoop中執行
- sqoop可以以並行的方式傳輸資料
- 幫助從主機中讀取序列檔案,並整合至目標系統
- 又有可擴充套件機制,可以構建或攔截多種 connector
- 除了基於JDBC的connector還支援原生工具的connector
- sqoop支援多種檔案格式
3、sqoop劣勢
- jdbc與關係型資料庫連線,這種連線比較低效
- 在進行分析是sqoop執行各種mapreduce任務,這些任務十分耗時
- sqoop以批量方式傳輸資料時,會給源系統造成一定的壓力
三、sqoop功能
sql to hadoop = sqoop
1、sqoop2架構
2、sqoop1與sqoop2
sqoop2主要設計思路
易用性
易擴充套件性
安全性
3、sqoop功能
當在命令列中輸入一個命令,首先啟動一個map任務,會通過合適的connector連線到相應的RDBMS,檢索相關資料。在map任務結束後,這些資料會交給reduce任務進行處理,這裡資料會被持久化到hdfs,hbase,hive中
4、sqoop匯入資料
5、sqoop匯出資料
四、sqoop connector
sqoop connector在sqoop任務中起到如下作用:
- 連線到目標資料庫
- 從資料庫中抽取資料
- 載入資料到資料庫
sqoop進行資料傳輸時,兩個元件開始起到作用,他們分別是:
- 驅動
- 聯結器
sqoop connector的型別
- 內建的sqoop connector
- 通用的JDBC connector
- 特殊的connector
- 快速的connector
- 可拔插的外部connector
五、sqoop對HDFS的支援
sqoop為HDFS資料匯入匯出而生。
相關文章
- 2020-09-23【學習筆記】【企業資料湖】三、Lambda架構:一種資料湖實現模式(1)筆記架構模式
- 基於Apache Hudi + MinIO 構建流式資料湖Apache
- Mysql批量大資料獲取MySql大資料
- KLOOK客路旅行基於Apache Hudi的資料湖實踐Apache
- 基於Apache Hudi + Flink的億級資料入湖實踐Apache
- 基於python的大資料分析實戰學習筆記-pandas(資料分析包)Python大資料筆記
- 基於python的大資料分析實戰學習筆記-AnacondaPython大資料筆記
- 基於Apache Hudi在Google雲構建資料湖平臺ApacheGo
- Uber基於Apache Hudi構建PB級資料湖實踐Apache
- 基於 DataLakeAnalytics 的資料湖實踐
- 基於DataLakeAnalytics的資料湖實踐
- Robinhood基於Apache Hudi的下一代資料湖實踐Apache
- 資料庫學習筆記資料庫筆記
- spark學習筆記--資料讀取與儲存Spark筆記
- 基於Apache Hudi構建資料湖的典型應用場景介紹Apache
- Docker 學習筆記(第五集:資料卷)Docker筆記
- 基於python的大資料分析實戰學習筆記-pandas之DataFramePython大資料筆記
- Redis基礎知識(學習筆記1--五種基礎資料結構)Redis筆記資料結構
- Apache Ignite 學習筆記(五): Primary和backup資料同步模式和處理分片丟失的策略Apache筆記模式
- 資料搬運元件:基於Sqoop管理資料匯入和匯出元件OOP
- 資料庫學習筆記 - MySQL基礎知識資料庫筆記MySql
- PHP 資料加密 (學習筆記)PHP加密筆記
- 1029學習筆記 資料庫筆記資料庫
- MySQL資料庫學習筆記MySql資料庫筆記
- 資料結構學習筆記資料結構筆記
- python學習筆記:資料庫Python筆記資料庫
- 關於資料湖、資料倉儲的想法
- Python資料爬蟲學習筆記(11)爬取千圖網圖片資料Python爬蟲筆記
- 資料庫學習筆記1(資料管理歷史)資料庫筆記
- 關於如何獲取資料的方法
- Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 3 —— 資料獲取與清洗機器學習筆記
- 阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料阿里
- 資料庫mysql學習筆記記錄資料庫MySql筆記
- Apache Hudi:雲資料湖解決方案Apache
- hive學習筆記之八:SqoopHive筆記OOP
- 資料倉儲 vs 資料湖 vs 湖倉一體:如何基於自身資料策略,選擇最合適的資料管理方案?
- 【大資料】— sqoop ?大資料OOP
- Redis學習筆記(七) 資料庫Redis筆記資料庫