備忘錄:hadoop技術一點積累

夏天的森林發表於2015-11-30

 1.hbase的rowkey是按字典排序的,我看有的資料建議rowkey設計不應該是自增的,應該和這個字典排序相關吧

   2.hbase的資料儲存是按照region來的,region的設計前段時間在坐飛機時候看了下,看來映像不是太深,有點記憶不清了,不過今天發現,region是請求訪問的一個具體源頭,也就是說一個請求一個執行緒都是訪問一個region,所以如果一臺伺服器有8核,假如叢集有50臺伺服器,50*8=400,我們最好定義400個region,region大小也要很好的控制,太大會導致region訪問過於頻繁,最後資料傾斜,當然hbase有自己機制拆分region,但是碰到極端情況還是需要手動去拆分region。

   3.mr程式設計其實非常痛苦的,似乎現在mr沒那麼流行,這個觀點有點錯誤了(我之前想的),例如hbase使用有時可以使用mr,讓mr對於資料做好清洗過濾的工作,最後以最佳的效果錄入到hbase裡。我一定要學習spark的,學習mr是學習spark的一個基礎。

   4.mongodb的靈活在於它的表結構比關聯式資料庫靈活,其實mongodb的使用更像memcache在使用,只不過mongodb提供的功能更加強大,特別是資料結構更加靈活。

相關文章