OGG到hadoop

xuexiaogang發表於2021-12-11

自己原文公眾號: https://mp.weixin.qq.com/s/iuQHNctnKphMSxUxHPIf5Q

這幾日在做資料庫(oracle mysql)到CDH的實驗。就是到所謂大資料。環境有限,都是用比較差的機器,勉強搞4、5臺機器。其實4-5臺機器根本玩不了大資料。就是搞個模型而已。當年cloudera(hadoop創始人創辦的)公司賣也是最少要10臺的,少於10臺實在是丟不起這個人。就好比一個將軍說我指揮過師團作戰,多少人?1萬人。差不多。如果將軍說我指揮過5個人的師團作戰,這就玩笑了。和蒙古國海軍司令差不多一個意思。我這裡就是純玩具環境。

      我記得2014年時候我搭建一套這個要2天,別人對我還是佩服的,但是我在陸金所時候這個速度被鄙視了,覺的太慢。最後是2小時完成的。

    時隔7年好在CDH沒多大改變。我讓下屬安裝(安裝現在都簡單了),他還完成多套。不過只有一套能用。有一個就玩一個吧。

     我們要實現幾個場景一個是到HBASE,一個是到Hive。還有一個是到kafka(其實這個不算是hadoop的原生),只不過是CDH的元件就算在全家桶吧。

      這幾個場景中最容易的是kafka。

1、編輯 引數檔案 edit param  extract ex9k 內容我這裡不方便詳細寫

2、在oggfor bigdata的命令列下進行註冊


dblogin userid c##ogg@source password ogg


register extract ex9k database container(pdb8)

3、建立抽取程式

add ext ex9k , integrated tranlog, begin now

add exttrail ./dirdat/9k, ext ex9k


4 、編輯投遞引數,內容我也不方向詳細寫

5、然後就是建立投遞程式

add rep rekafka , exttrail  /ogg/ogg4oracle/dirdat/9k,nodbcheckpoint

6、投遞有引數涉及兩個檔案

custom_kafka_producer.properties

kafka.props

然後就開 來,萬事大吉。

資料庫新增資料,增加欄位,增加表完全自適應。即使更新資料都有。

然後來到第二個場景HBase這就是巨坑了,因為版本不相容。ogg要求hbase的版本是2.1.最後還是自己下載了hbase的lib放到ogg伺服器上才行。

步驟和kafka一樣。

最後編輯的引數是

hbase.props

hbase也是可以看得到更新的。不過hbase不支援sum和join。Hbase留下了一個坑,要想解決不是沒有辦法,用phoenix,這個等於是在填hbase的坑。我沒去嘗試,因為沒合適的版本相容。,或者是hbase結合hive,坑上坑。


第三個場景是Hive,步驟和上面一樣。

這個場景是最坑的。這坑我覺得就是hive挖的。因為hbase不支援這個不支援那個,hive也是一樣,他不支援修改。所以最終做出來是這樣的:

他把更新的也當做一行新的記錄,然後後面需要進行去判斷是更新還是怎麼辦?其實後患無窮(我意思是工作量大)


整個就是 Doug Cutting這老哥沒想好。今天這裡搞一下,明天糊一把。A不支援這個操作,B不支援那個操作。每個東西也就是半成品,想用好大把大把的投入人力物力財力。


在2004年穀歌提出的三駕馬車旨在解決關係型資料庫OLAP,GB級別的資料讀取不給力的情況。(那個年代IO不行。所以才分布式儲存分散式計算。現在有的硬碟每秒IO都1T,我本地直接出結果了,用以上的方式是不是費力不討好?), Doug Cutting耿直的原型實現了。後面就修修補補。說真的幾個如果在PB以下的資料,硬體不差的情況下,在Oracle 、PG中還是比較快的。同時配合屬於預處理,比如以前聽說滴滴一天3000w訂單。那麼如果柳青問一個月多少訂單。其實每天的3000w加一下。(1秒)就是3000wX30就可以了(1秒)。而不用一條條訂單的去SUM。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/637517/viewspace-2847136/,如需轉載,請註明出處,否則將追究法律責任。

相關文章