自己原文公眾號： https://mp.weixin.qq.com/s/iuQHNctnKphMSxUxHPIf5Q

這幾日在做資料庫（oracle mysql）到CDH的實驗。就是到所謂大資料。環境有限，都是用比較差的機器，勉強搞4、5臺機器。其實4-5臺機器根本玩不了大資料。就是搞個模型而已。當年cloudera（hadoop創始人創辦的）公司賣也是最少要10臺的，少於10臺實在是丟不起這個人。就好比一個將軍說我指揮過師團作戰，多少人？1萬人。差不多。如果將軍說我指揮過5個人的師團作戰，這就玩笑了。和蒙古國海軍司令差不多一個意思。我這裡就是純玩具環境。

我記得2014年時候我搭建一套這個要2天，別人對我還是佩服的，但是我在陸金所時候這個速度被鄙視了，覺的太慢。最後是2小時完成的。

時隔7年好在CDH沒多大改變。我讓下屬安裝（安裝現在都簡單了），他還完成多套。不過只有一套能用。有一個就玩一個吧。

我們要實現幾個場景一個是到HBASE，一個是到Hive。還有一個是到kafka（其實這個不算是hadoop的原生），只不過是CDH的元件就算在全家桶吧。

這幾個場景中最容易的是kafka。

1、編輯引數檔案 edit param extract ex9k 內容我這裡不方便詳細寫

2、在oggfor bigdata的命令列下進行註冊

dblogin userid c##ogg@source password ogg

register extract ex9k database container(pdb8)

3、建立抽取程式

add ext ex9k , integrated tranlog, begin now

add exttrail ./dirdat/9k, ext ex9k

4 、編輯投遞引數，內容我也不方向詳細寫

5、然後就是建立投遞程式

add rep rekafka , exttrail /ogg/ogg4oracle/dirdat/9k,nodbcheckpoint

6、投遞有引數涉及兩個檔案

custom_kafka_producer.properties

kafka.props

然後就開起來，萬事大吉。

資料庫新增資料，增加欄位，增加表完全自適應。即使更新資料都有。

然後來到第二個場景HBase這就是巨坑了，因為版本不相容。ogg要求hbase的版本是2.1.最後還是自己下載了hbase的lib放到ogg伺服器上才行。

步驟和kafka一樣。

最後編輯的引數是

hbase.props

hbase也是可以看得到更新的。不過hbase不支援sum和join。Hbase留下了一個坑，要想解決不是沒有辦法，用phoenix，這個等於是在填hbase的坑。我沒去嘗試，因為沒合適的版本相容。，或者是hbase結合hive，坑上坑。

第三個場景是Hive，步驟和上面一樣。

這個場景是最坑的。這坑我覺得就是hive挖的。因為hbase不支援這個不支援那個，hive也是一樣，他不支援修改。所以最終做出來是這樣的：

他把更新的也當做一行新的記錄，然後後面需要進行去判斷是更新還是怎麼辦？其實後患無窮（我意思是工作量大）

整個就是 Doug Cutting這老哥沒想好。今天這裡搞一下，明天糊一把。A不支援這個操作，B不支援那個操作。每個東西也就是半成品，想用好大把大把的投入人力物力財力。

在2004年穀歌提出的三駕馬車旨在解決關係型資料庫OLAP，GB級別的資料讀取不給力的情況。（那個年代IO不行。所以才分布式儲存分散式計算。現在有的硬碟每秒IO都1T，我本地直接出結果了，用以上的方式是不是費力不討好？）， Doug Cutting耿直的原型實現了。後面就修修補補。說真的幾個如果在PB以下的資料，硬體不差的情況下，在Oracle 、PG中還是比較快的。同時配合屬於預處理，比如以前聽說滴滴一天3000w訂單。那麼如果柳青問一個月多少訂單。其實每天的3000w加一下。（1秒）就是3000wX30就可以了（1秒）。而不用一條條訂單的去SUM。

OGG到hadoop

相關文章