2020-09-27【學習筆記】【企業資料湖】五、基於Apache Sqoop的批量資料獲取
一、資料湖背景中的資料獲取
1、資料獲取層
2、批量資料獲取--技術路線圖
二、為什麼使用sqoop
sqoop是一款非常常用的用於向ApacheHadoop傳輸資料的工具
1、sqoop簡史
最早由cloudera開發維護,分為1.X,2.X版本,區別很大
2、sqoop的優勢
- 支援多種結構化資料
- sqoop可以將etl中某些環境剔除,轉移到hadoop中執行
- sqoop可以以並行的方式傳輸資料
- 幫助從主機中讀取序列檔案,並整合至目標系統
- 又有可擴充套件機制,可以構建或攔截多種 connector
- 除了基於JDBC的connector還支援原生工具的connector
- sqoop支援多種檔案格式
3、sqoop劣勢
- jdbc與關係型資料庫連線,這種連線比較低效
- 在進行分析是sqoop執行各種mapreduce任務,這些任務十分耗時
- sqoop以批量方式傳輸資料時,會給源系統造成一定的壓力
三、sqoop功能
sql to hadoop = sqoop
1、sqoop2架構
2、sqoop1與sqoop2
sqoop2主要設計思路
易用性
易擴充套件性
安全性
3、sqoop功能
當在命令列中輸入一個命令,首先啟動一個map任務,會通過合適的connector連線到相應的RDBMS,檢索相關資料。在map任務結束後,這些資料會交給reduce任務進行處理,這裡資料會被持久化到hdfs,hbase,hive中
4、sqoop匯入資料
5、sqoop匯出資料
四、sqoop connector
sqoop connector在sqoop任務中起到如下作用:
- 連線到目標資料庫
- 從資料庫中抽取資料
- 載入資料到資料庫
sqoop進行資料傳輸時,兩個元件開始起到作用,他們分別是:
- 驅動
- 聯結器
sqoop connector的型別
- 內建的sqoop connector
- 通用的JDBC connector
- 特殊的connector
- 快速的connector
- 可拔插的外部connector
五、sqoop對HDFS的支援
sqoop為HDFS資料匯入匯出而生。
相關文章
- 大資料學習筆記(十四)-Sqoop大資料筆記OOP
- 大資料學習筆記(五)大資料筆記
- 2020-09-23【學習筆記】【企業資料湖】三、Lambda架構:一種資料湖實現模式(1)筆記架構模式
- 基於Apache Hudi + MinIO 構建流式資料湖Apache
- KLOOK客路旅行基於Apache Hudi的資料湖實踐Apache
- Mysql批量大資料獲取MySql大資料
- 基於Apache Hudi + Flink的億級資料入湖實踐Apache
- Uber基於Apache Hudi構建PB級資料湖實踐Apache
- 基於Apache Hudi在Google雲構建資料湖平臺ApacheGo
- 基於python的大資料分析實戰學習筆記-pandas(資料分析包)Python大資料筆記
- Robinhood基於Apache Hudi的下一代資料湖實踐Apache
- 基於 DataLakeAnalytics 的資料湖實踐
- 基於DataLakeAnalytics的資料湖實踐
- 資料庫學習筆記資料庫筆記
- spark學習筆記--資料讀取與儲存Spark筆記
- 基於Apache Hudi構建資料湖的典型應用場景介紹Apache
- Docker 學習筆記(第五集:資料卷)Docker筆記
- Redis基礎知識(學習筆記1--五種基礎資料結構)Redis筆記資料結構
- 基於python的大資料分析實戰學習筆記-AnacondaPython大資料筆記
- 關於資料湖、資料倉儲的想法
- 資料庫學習筆記 - MySQL基礎知識資料庫筆記MySql
- PHP 資料加密 (學習筆記)PHP加密筆記
- MySQL資料庫學習筆記MySql資料庫筆記
- 大資料學習筆記(四)大資料筆記
- 大資料學習筆記(六)大資料筆記
- 資料結構學習筆記資料結構筆記
- AS 學習筆記 載入資料筆記
- java學習筆記(二)springMVC +mybatis 取資料流程Java筆記SpringMVCMyBatis
- SpringMVC 學習筆記(五) 基於RESTful的CRUDSpringMVC筆記REST
- 基於python的大資料分析實戰學習筆記-pandas之DataFramePython大資料筆記
- 資料倉儲、資料集市、資料湖,你的企業更適合哪種資料管理架構?架構
- Apache Hudi:雲資料湖解決方案Apache
- 資料倉儲 vs 資料湖 vs 湖倉一體:如何基於自身資料策略,選擇最合適的資料管理方案?
- 資料庫學習筆記1(資料管理歷史)資料庫筆記
- 阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料阿里
- Apache Ignite 學習筆記(五): Primary和backup資料同步模式和處理分片丟失的策略Apache筆記模式
- 資料庫mysql學習筆記記錄資料庫MySql筆記
- 關於如何獲取資料的方法