OGG到hadoop
自己原文公眾號: https://mp.weixin.qq.com/s/iuQHNctnKphMSxUxHPIf5Q
這幾日在做資料庫(oracle mysql)到CDH的實驗。就是到所謂大資料。環境有限,都是用比較差的機器,勉強搞4、5臺機器。其實4-5臺機器根本玩不了大資料。就是搞個模型而已。當年cloudera(hadoop創始人創辦的)公司賣也是最少要10臺的,少於10臺實在是丟不起這個人。就好比一個將軍說我指揮過師團作戰,多少人?1萬人。差不多。如果將軍說我指揮過5個人的師團作戰,這就玩笑了。和蒙古國海軍司令差不多一個意思。我這裡就是純玩具環境。
我記得2014年時候我搭建一套這個要2天,別人對我還是佩服的,但是我在陸金所時候這個速度被鄙視了,覺的太慢。最後是2小時完成的。
時隔7年好在CDH沒多大改變。我讓下屬安裝(安裝現在都簡單了),他還完成多套。不過只有一套能用。有一個就玩一個吧。
我們要實現幾個場景一個是到HBASE,一個是到Hive。還有一個是到kafka(其實這個不算是hadoop的原生),只不過是CDH的元件就算在全家桶吧。
這幾個場景中最容易的是kafka。
1、編輯 引數檔案 edit param extract ex9k 內容我這裡不方便詳細寫
2、在oggfor bigdata的命令列下進行註冊
dblogin userid c##ogg@source password ogg
register extract ex9k database container(pdb8)
3、建立抽取程式
add ext ex9k , integrated tranlog, begin now
add exttrail ./dirdat/9k, ext ex9k
4 、編輯投遞引數,內容我也不方向詳細寫
5、然後就是建立投遞程式
add rep rekafka , exttrail /ogg/ogg4oracle/dirdat/9k,nodbcheckpoint
6、投遞有引數涉及兩個檔案
custom_kafka_producer.properties
kafka.props
然後就開
起來,萬事大吉。
資料庫新增資料,增加欄位,增加表完全自適應。即使更新資料都有。
然後來到第二個場景HBase這就是巨坑了,因為版本不相容。ogg要求hbase的版本是2.1.最後還是自己下載了hbase的lib放到ogg伺服器上才行。
步驟和kafka一樣。
最後編輯的引數是
hbase.props
hbase也是可以看得到更新的。不過hbase不支援sum和join。Hbase留下了一個坑,要想解決不是沒有辦法,用phoenix,這個等於是在填hbase的坑。我沒去嘗試,因為沒合適的版本相容。,或者是hbase結合hive,坑上坑。
第三個場景是Hive,步驟和上面一樣。
這個場景是最坑的。這坑我覺得就是hive挖的。因為hbase不支援這個不支援那個,hive也是一樣,他不支援修改。所以最終做出來是這樣的:
他把更新的也當做一行新的記錄,然後後面需要進行去判斷是更新還是怎麼辦?其實後患無窮(我意思是工作量大)
整個就是 Doug Cutting這老哥沒想好。今天這裡搞一下,明天糊一把。A不支援這個操作,B不支援那個操作。每個東西也就是半成品,想用好大把大把的投入人力物力財力。
在2004年穀歌提出的三駕馬車旨在解決關係型資料庫OLAP,GB級別的資料讀取不給力的情況。(那個年代IO不行。所以才分布式儲存分散式計算。現在有的硬碟每秒IO都1T,我本地直接出結果了,用以上的方式是不是費力不討好?), Doug Cutting耿直的原型實現了。後面就修修補補。說真的幾個如果在PB以下的資料,硬體不差的情況下,在Oracle 、PG中還是比較快的。同時配合屬於預處理,比如以前聽說滴滴一天3000w訂單。那麼如果柳青問一個月多少訂單。其實每天的3000w加一下。(1秒)就是3000wX30就可以了(1秒)。而不用一條條訂單的去SUM。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/637517/viewspace-2847136/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Oracle OGG 到 Kafka OGG-01431 OGG-01003 OGG-01151 OGG-01296 OGG-01668OracleKafka
- 配置ogg異構oracle到mysqlOracleMySql
- OGG_mysql 12c複製到OGG_oracle 11g部署方案MySqlOracle
- OGG-01431 OGG-01003 OGG-01151 OGG-01003錯誤處理
- OGG問題處理(OGG-01031,OGG-01416)
- Oracle 11g RAC到單例項OGG同步Oracle單例
- OGG 12c mysql複製到oracle部署方案MySqlOracle
- OGG:manager
- ogg 同步kafka OGG-15051 Java or JNI exception:KafkaJavaException
- 從分治演算法到 Hadoop MapReduce演算法Hadoop
- 使用OGG新增唯一標識欄位到目標表
- Hadoop 從 0 到 1 學習 ——第一章 Hadoop 介紹Hadoop
- OGG:Extract 簡介
- OGG初始化
- 1.4 基於OGG單表到分庫分表資料同步場景
- OGG 簡單DML同步
- OGG引數詳解
- Oracle OGG日常維護Oracle
- OGG日常維護文件
- Oracle 19C OGG基礎運維-09OGG-15121錯誤Oracle運維
- OGG遷移至nas上遇到的許可權問題OGG-01083
- hadoop window 遠端提交job到叢集並執行Hadoop
- OGG19.1 oracle12c到oracle12c經典模式配置實施Oracle模式
- Oracle+Ogg 歸檔丟失 重新導資料建立ogg同步步驟Oracle
- OGG強制刪除replicat
- OGG Director報錯 Connection FAILEDAI
- OGG的抽取程式合併
- OGG-01705解決思路
- OGG 抽取程序註冊時報OGG-08221 ORA-00001錯誤總結
- OGG-Oracle 11.2.0.1 ->19.3 pdb 使用Ogg 同步版本相關問題學習整理Oracle
- Hadoop大資料探勘從入門到進階實戰Hadoop大資料
- [20181217]ogg抽取日誌分析.txt
- [20181213]ogg大量讀取操作.txt
- pg 用ogg 同步大概步驟
- OGG中add trandata的含義
- 從 RAID 到 Hadoop Hdfs 『大資料儲存的進化史』AIHadoop大資料
- hadoop 存到hdfs的資料沒有同步到其他機器上Hadoop
- HadoopHadoop