用於Hadoop的MongoDB聯結器庫

banq發表於2022-01-11

用於 Hadoop 的 MongoDB 聯結器是一個庫,它允許將 MongoDB(或其資料格式的備份檔案,BSON)用作 Hadoop MapReduce 任務的輸入源或輸出目標。它旨在提供更大的靈活性和效能,並可以輕鬆地將 MongoDB 中的資料與 Hadoop 生態系統的其他部分整合,包括:

  • Pig
  • Spark
  • MapReduce
  • Hadoop Streaming
  • Hive
  • Flume

特徵

  • 可以建立資料拆分以從獨立、副本集或分片配置中讀取
  • 可以使用 MongoDB 查詢語言通過查詢過濾源資料
  • 支援 Hadoop Streaming,允許用任何語言編寫作業程式碼(目前支援 python、ruby、nodejs)
  • 可以從駐留在 S3、HDFS 或本地檔案系統上的 MongoDB 備份檔案中讀取資料
  • 可以以 .bson 格式寫出資料,然後可以將其匯入任何 MongoDB 資料庫 mongorestore
  • 與其他 Hadoop 工具(例如Pig和Hive)中的BSON/MongoDB 文件一起使用。

下載

安裝 Hadoop 聯結器的最佳方式是通過 Maven 之類的依賴管理系統:

<dependency>
    <groupId>org.mongodb.mongo-hadoop</groupId>
    <artifactId>mongo-hadoop-core</artifactId>
    <version>1.5.1</version>
</dependency>

相容性:

  • Hadoop 1.X: 1.2
  • Hadoop 2.X: 2.4
  • Hive: 1.1
  • Pig: 0.11
  • Spark: 1.4
  • MongoDB: 2.2

 

相關文章