OGG到hadoop
自己原文公眾號: https://mp.weixin.qq.com/s/iuQHNctnKphMSxUxHPIf5Q
這幾日在做資料庫(oracle mysql)到CDH的實驗。就是到所謂大資料。環境有限,都是用比較差的機器,勉強搞4、5臺機器。其實4-5臺機器根本玩不了大資料。就是搞個模型而已。當年cloudera(hadoop創始人創辦的)公司賣也是最少要10臺的,少於10臺實在是丟不起這個人。就好比一個將軍說我指揮過師團作戰,多少人?1萬人。差不多。如果將軍說我指揮過5個人的師團作戰,這就玩笑了。和蒙古國海軍司令差不多一個意思。我這裡就是純玩具環境。
我記得2014年時候我搭建一套這個要2天,別人對我還是佩服的,但是我在陸金所時候這個速度被鄙視了,覺的太慢。最後是2小時完成的。
時隔7年好在CDH沒多大改變。我讓下屬安裝(安裝現在都簡單了),他還完成多套。不過只有一套能用。有一個就玩一個吧。
我們要實現幾個場景一個是到HBASE,一個是到Hive。還有一個是到kafka(其實這個不算是hadoop的原生),只不過是CDH的元件就算在全家桶吧。
這幾個場景中最容易的是kafka。
1、編輯 引數檔案 edit param extract ex9k 內容我這裡不方便詳細寫
2、在oggfor bigdata的命令列下進行註冊
dblogin userid c##ogg@source password ogg
register extract ex9k database container(pdb8)
3、建立抽取程式
add ext ex9k , integrated tranlog, begin now
add exttrail ./dirdat/9k, ext ex9k
4 、編輯投遞引數,內容我也不方向詳細寫
5、然後就是建立投遞程式
add rep rekafka , exttrail /ogg/ogg4oracle/dirdat/9k,nodbcheckpoint
6、投遞有引數涉及兩個檔案
custom_kafka_producer.properties
kafka.props
然後就開
起來,萬事大吉。
資料庫新增資料,增加欄位,增加表完全自適應。即使更新資料都有。
然後來到第二個場景HBase這就是巨坑了,因為版本不相容。ogg要求hbase的版本是2.1.最後還是自己下載了hbase的lib放到ogg伺服器上才行。
步驟和kafka一樣。
最後編輯的引數是
hbase.props
hbase也是可以看得到更新的。不過hbase不支援sum和join。Hbase留下了一個坑,要想解決不是沒有辦法,用phoenix,這個等於是在填hbase的坑。我沒去嘗試,因為沒合適的版本相容。,或者是hbase結合hive,坑上坑。
第三個場景是Hive,步驟和上面一樣。
這個場景是最坑的。這坑我覺得就是hive挖的。因為hbase不支援這個不支援那個,hive也是一樣,他不支援修改。所以最終做出來是這樣的:
他把更新的也當做一行新的記錄,然後後面需要進行去判斷是更新還是怎麼辦?其實後患無窮(我意思是工作量大)
整個就是 Doug Cutting這老哥沒想好。今天這裡搞一下,明天糊一把。A不支援這個操作,B不支援那個操作。每個東西也就是半成品,想用好大把大把的投入人力物力財力。
在2004年穀歌提出的三駕馬車旨在解決關係型資料庫OLAP,GB級別的資料讀取不給力的情況。(那個年代IO不行。所以才分布式儲存分散式計算。現在有的硬碟每秒IO都1T,我本地直接出結果了,用以上的方式是不是費力不討好?), Doug Cutting耿直的原型實現了。後面就修修補補。說真的幾個如果在PB以下的資料,硬體不差的情況下,在Oracle 、PG中還是比較快的。同時配合屬於預處理,比如以前聽說滴滴一天3000w訂單。那麼如果柳青問一個月多少訂單。其實每天的3000w加一下。(1秒)就是3000wX30就可以了(1秒)。而不用一條條訂單的去SUM。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/637517/viewspace-2847136/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 配置ogg異構oracle到mysqlOracleMySql
- OGG搭建(rac到-->單例項)單例
- Oracle OGG 到 Kafka OGG-01431 OGG-01003 OGG-01151 OGG-01296 OGG-01668OracleKafka
- 歡迎來到HadoopHadoop
- OGG_mysql 12c複製到OGG_oracle 11g部署方案MySqlOracle
- Oracle 11g RAC到單例項OGG同步Oracle單例
- OGG 12c mysql複製到oracle部署方案MySqlOracle
- 基於OGG的Oracle與Hadoop叢集準實時同步介紹OracleHadoop
- hadoop叢集篇--從0到1搭建hadoop叢集Hadoop
- 藉助ogg完成oracle到mysql的資料遷移OracleMySql
- 從分治演算法到 Hadoop MapReduce演算法Hadoop
- Hadoop 從 0 到 1 學習 ——第一章 Hadoop 介紹Hadoop
- OGG Oracle 分割槽壓縮表 到 MySQL分表的實現OracleMySql
- 配置OGG到MYSQL複製時登陸MYSQL報錯解決MySql
- 在原ogg基礎上重新搭建ogg
- 【OGG】OGG的下載和安裝篇
- OGG問題處理(OGG-01031,OGG-01416)
- ogg 同步kafka OGG-15051 Java or JNI exception:KafkaJavaException
- OGG拆分程式
- OGG基礎
- Hadoop2.6.0從入門到精通系列之Hadoop 單節點安裝與配置Hadoop
- ogg OGG-01834 IPV6問題
- 【OGG】RAC環境下配置OGG單向同步 (四)
- 1.4 基於OGG單表到分庫分表資料同步場景
- 傳統OGG與Microservice Architecture OGG的通訊ROS
- OGG:Extract 簡介
- ogg引數解析
- OGG 程式清除、重建
- OGG維護命令
- ogg的manager程式
- OGG表級同步
- ogg 同步問題
- dg/ogg區別
- hadoop window 遠端提交job到叢集並執行Hadoop
- OGG-01431 OGG-01003 OGG-01151 OGG-01003錯誤處理
- Hadoop大資料探勘從入門到進階實戰Hadoop大資料
- OGG引數詳解
- Oracle OGG日常維護Oracle