hadoop 叢集 跨 版本資料遷移
忙著做hadoop 1.x 到 2.x 的資料遷移.
hadoop 系統提供 了一個 命令 distcp 可以跨版本 遷移資料.
具體的命令格式: 在新的hadoop 版本上執行 .
兩個叢集間的所有的主機hosts 檔案裡要把對方的叢集節點的主機名配置上去. 因為是mapreduce 作業,不然會job 失敗.
在 hadoop 2.x 上執行 .
hadoop distcp hftp://hadoop1.x-namenode:50070/xxxx/xxx/xxx* /path-to-hadoop2.x/xxx/xxx
注意這裡用的hftp 協議 ,不是hdfs 協議, hdfs 協議兩邊不通的.
如果你 hadoop 2.x 是預設安裝的 還有個地方需要修改 , 不然會報檔案校驗 checksum 報錯. 無法複製.
hadoop 1.x 的檔案校驗用的crc32
hadoop 2.x 的檔案校驗用的CRC32C 兩個版本的hadoop 的校驗方法不同,會報錯.無法遷移資料.
在hadoop 2.x hdfs-site.xml 裡增加 一個配置.
<property>
<name>dfs.checksum.type</name>
<value>CRC32</value>
<description>
when transfer data from hadoop 1.x to hadoop 2.x the data block checksum in hadoop 1.x is crc32
and hadoop 2.x is crc32c . transfer data will fail .
</description>
</property>
然後就ok 了.
hadoop 系統提供 了一個 命令 distcp 可以跨版本 遷移資料.
具體的命令格式: 在新的hadoop 版本上執行 .
兩個叢集間的所有的主機hosts 檔案裡要把對方的叢集節點的主機名配置上去. 因為是mapreduce 作業,不然會job 失敗.
在 hadoop 2.x 上執行 .
hadoop distcp hftp://hadoop1.x-namenode:50070/xxxx/xxx/xxx* /path-to-hadoop2.x/xxx/xxx
注意這裡用的hftp 協議 ,不是hdfs 協議, hdfs 協議兩邊不通的.
如果你 hadoop 2.x 是預設安裝的 還有個地方需要修改 , 不然會報檔案校驗 checksum 報錯. 無法複製.
hadoop 1.x 的檔案校驗用的crc32
hadoop 2.x 的檔案校驗用的CRC32C 兩個版本的hadoop 的校驗方法不同,會報錯.無法遷移資料.
在hadoop 2.x hdfs-site.xml 裡增加 一個配置.
<property>
<name>dfs.checksum.type</name>
<value>CRC32</value>
<description>
when transfer data from hadoop 1.x to hadoop 2.x the data block checksum in hadoop 1.x is crc32
and hadoop 2.x is crc32c . transfer data will fail .
</description>
</property>
然後就ok 了.
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/30089851/viewspace-2062010/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- elasticsearch跨叢集資料遷移Elasticsearch
- redis叢集 資料遷移方案Redis
- zt 跨平臺 跨版本 大規模資料遷移
- 使用 Velero 跨雲平臺遷移叢集資源到 TKE
- impala 資料表在叢集間遷移方案
- Karmada跨叢集優雅故障遷移特性解析
- expdp/impdp 使用version引數跨版本資料遷移
- RMAN同位元組序跨平臺跨版本遷移資料庫資料庫
- RMAN同位元組序跨平臺跨版本遷移資料庫(一)資料庫
- RMAN同位元組序跨平臺跨版本遷移資料庫(二)資料庫
- 有贊大資料離線叢集遷移實戰大資料
- 從零自學Hadoop(16):Hive資料匯入匯出,叢集資料遷移上HadoopHive
- 從零自學Hadoop(17):Hive資料匯入匯出,叢集資料遷移下HadoopHive
- 大資料7.1 - hadoop叢集搭建大資料Hadoop
- 太強了!分散式Elasticsearch叢集資料遷移企業案例分散式Elasticsearch
- 動手為王 | Oracle 資料庫跨版本升級遷移實踐Oracle資料庫
- 大資料平臺Hadoop叢集搭建大資料Hadoop
- hadoop叢集遠端拷貝資料Hadoop
- Elasticsearch 叢集誇網路快照遷移Elasticsearch
- Redis叢集slot遷移改造實踐Redis
- 騰訊上萬節點大規模叢集的跨城自動遷移
- 使用RMAN完成跨平臺資料遷移
- 利用RMAN跨平臺遷移資料庫資料庫
- rman進行跨平臺資料遷移
- 跨平臺遷移oracle資料庫指南Oracle資料庫
- 資料到hadoop的遷移Hadoop
- 在 TKE 中使用 Velero 遷移複製叢集資源
- Hadoop資料遷移MaxCompute最佳實踐Hadoop
- 大資料叢集遷移的那一夜是怎麼過的大資料
- 大型資料庫跨平臺遷移總結資料庫
- Velero:備份、遷移Kubernetes叢集資源和PV
- Grafana的版本升級和資料遷移Grafana
- 遷移資料時oracle字符集的轉換遷移資料時oracle字符集的轉換Oracle
- 開源大資料叢集部署(十一)Ranger 整合Hadoop叢集大資料RangerHadoop
- 從困境到突破,EasyMR 叢集遷移助力大資料底座信創國產化大資料
- 大資料叢集跨多版本升級、業務0中斷,只因背後有TA大資料
- hadoop2.6.0版本叢集環境搭建Hadoop
- hadoop叢集篇--從0到1搭建hadoop叢集Hadoop