Hadoop周邊生態軟體和簡要工作原理(二)薦

Slaytanic發表於2013-07-19

原文網址 : https://flycode.co/archives/256312

Sqoop：

sqoop在hadoop生態系統中也是應用率比較高的軟體，主要是用來做ETL工具，由yadoo研發並提交給Apache。Hadoop整個生態圈裡面，大部分的應用都是Yadoo研發的，貢獻非常大。Yahoo裡面出來兩撥人，分別組建了Cloudera和Hortonworks。

所謂ETL，就是資料的抽取(extract)載入(load)轉換(transform)。將一種格式或表現形式的資料，通過程式碼，改變形態，變成另一種格式或表現形式的資料。哪怕是把矩陣裡的排列順序改變，也算是ETL。

Sqoop最主要的特點是可以在很多資料庫和資料格式之間轉換，通過設定引數，可以把oracle，mysql裡面的結構化資料，變成非結構化的儲存到HDFS裡面，也可以把HDFS裡面的資料提取出來儲存到資料庫或者是純文字，很靈活。中間的轉換過程用Hive還是自己的mapreduce，還是用pig，mahout，都不重要。他提供的是到各種系統之間的介面，以命令列引數方式執行。

其實sqoop的實現並不複雜，自己花不了多少時間也可以把sqoop重新實現一下，只要瞭解了他的工作原理，無非就是做好各種資料庫和Hadoop之間的介面即可。我們目前沒有用sqoop，而是自己用python實現了一套類似的東西。

Oozie：

很棒的東西，著名的工作流系統。可以把各種資料流串起來，想象一下街邊的烤串。就像烤板筋，一塊板筋就是一個資料任務，一塊肥肉也是一個資料任務，板筋和肥肉要交錯進行，才能得到最終的可口食物，那麼oozie擔負的就是竹籤子的任務。把資料任務串好，經過一段時間的等待，烤板筋就可以吃了。中間可能還會有各種依賴，比如撒撒鹽，撒撒辣椒，也是在整個工作流裡面去完成的。

一個真正的BI決策很有可能要經過極其複雜的資料流，資料之間的相互依賴也很高。A任務跑完，才可以開始B,C任務，而B,C任務又依賴D任務的資料，然後E任務依賴B，C的資料，得出的結果F又要跟A任務進行比對分析，才最終得到結果G。這就是一個簡單的資料流了，中間如何控制整個資料的流程和產出，就需要oozie來完成。

Mahout：

Mahout可以說是大資料演算法智慧的結晶，他裡面包含了很多機器學習和人工智慧的演算法。有基於map/reduce計算的，也有不基於map/reduce計算的。其演算法數量之多，幾乎可以涵蓋各個主要領域。

不過mahout的演算法庫過於通用，無法適應所有需求，在我們的實際使用過程中，我們很少直接用mahout去做計算，更多的時候是拿mahout作為演算法參考的程式碼庫，然後根據自己的需求做二次重構。比如在網際網路裡使用頻率最高的推薦和分類聚類演算法，都需要自己去重新根據不同的需求去實現，但無論怎樣，即使作為演算法參考，mahout仍然是非常牛逼的東西。只是最近更新的很慢，從2012年釋出了0.7，就沒再更新過了。

Pig：

pig的工作原理類似Hive，早於hive出現，也是由yahoo進行開發的。在hive出現以前，pig在hadoop生態圈裡一直是獨領風騷。後來Hive出現以後就逐漸勢微了。畢竟是一個全新的語言，比起用sql的hive來說，業務幾乎可以無成本遷移。而pig畢竟還是需要一定的學習成本的，但是pig在資料處理上比hive更加靈活，應該來說算是編譯map/reduce應用的先驅者。

不過我還是一直不太會寫pig-latin。最近有一個開源專案，把pig做成了視覺化的東西，非常不錯，叫lipstick，值得一試。

Bookkeeper：

是從zookeeper裡面分離出來的子專案，比較新，還沒怎麼看過。但是看介紹，應該是跟NN的HA有很大的關係。Hadoop的單點一直是比較令人頭疼的地方，各種分散式檔案系統大約都存在這種問題。MooseFS什麼的，也都需要靠heartbeat，DRBD等去階段master的單點問題。HDFS也不例外，於是早先就有人提出用zookeeper來解決NN的溫備，熱備。但是非常複雜，既要防止腦裂，也無法做到近乎實時的熱切換。因為如果把zk的檢查時間設定很短，就會導致壓力增高，而zk的時間設定長了，就無法做到實時熱備。我記得好像要設定在10-20秒左右才可以。bookkeeper應該就是為了解決過於複雜的解決方案而分離出來的子專案。

bigtop：

之前的文章裡介紹過了。

Hadoop基礎（二）：從Hadoop框架討論大資料生態
2020-07-11
Hadoop框架大資料
Hadoop演進與Hadoop生態
2020-09-20
Hadoop
CSDN周賽第30期：贏圖書《軟體研發效能提升實踐》和定製周邊
2023-02-16
CSDN周賽第48期：贏《MongoDB核心原理與實踐》和定製周邊
2023-04-20
MongoDB
CSDN周賽第34期：贏《MongoDB核心原理與實踐》和定製周邊
2023-03-02
MongoDB
初入Hadoop生態系統
2018-11-08
Hadoop
Hadoop 基礎之生態圈
2019-04-29
Hadoop
邊緣計算|Hadoop——邊緣計算和Hadoop是什麼關係？
2024-05-28
Hadoop
提升工作效率的軟體推薦（1）
2020-04-20
磁碟原理簡要分析
2022-06-15
雙機熱備軟體原理簡單說明以及品牌重點推薦
2022-11-18
學習Hadoop生態第一步：Yarn基本原理和資源排程解析！
2018-09-05
HadoopYarn
工具 | Windows10 軟體推薦 (二)
2020-03-14
Windows
軟體測評中心簡要分析：為什麼要進行軟體效能測試?
2022-05-11
推薦5款提高工作效率和質量的軟體
2024-01-23
CSDN周賽第33期：贏實體圖書盲盒和定製周邊
2023-02-28
電腦防洩密軟體的工作原理
2024-04-26
【CSDN競賽第10期】贏定製周邊和《軟體研發效能權威指南》實體書！
2022-11-15
周邊生態｜StreamNative 聯合 Cloudera 開源 Apache Pulsar+Apache NiFi 整合處理器
2022-03-25
CloudApacheNifi
軟體工程：左移策略，決策和工作要前置，是提效的關鍵
2023-04-25
軟體工程
5款值得推薦的工具和軟體，讓你的工作效率翻倍
2023-03-24
HTTP -- 周邊
2020-11-03
HTTP
邊緣計算|Hadoop——邊緣計算，有沒有對應的軟體？例如資料中心或雲端計算環境進行資料處理和儲存的Hadoop單一軟體框架？
2024-05-28
Hadoop框架
koa2 總體流程原理淺析(二) 之中介軟體原理
2019-02-16
RabbitMQ系列（二）深入瞭解RabbitMQ工作原理及簡單使用
2018-07-06
MQ
Hadoop系列002-從Hadoop框架討論大資料生態
2018-12-01
Hadoop框架大資料
提升工作效率的PC端軟體【二】
2024-06-26
ppium簡介及工作原理
2018-03-14
低程式碼軟體簡介及推薦列表
2023-09-20
晶片半導體基礎(一)：真空二極體、三極體工作原理
2025-01-08
晶片
生產裝置點巡檢的工作原理和使用流程
2021-12-14
ASP.NET Core中的中介軟體及其工作原理
2021-01-05
ASP.NET
Hadoop高階資料分析使用Hadoop生態系統設計和構建大資料系統
2018-11-28
Hadoop大資料
推薦5個我常用的軟體，簡單高效
2024-01-30
簡單好用的繪畫軟體推薦：krita for Mac
2020-09-10
Mac
周邊生態｜RoP 重磅釋出 0.2.0 版本：架構全新升級，訊息準確性達 100%
2021-12-08
架構
Thanos工作原理及元件簡介
2023-04-02
元件
Day14 session原理和中介軟體
2020-10-23
Session
「MoreThanJava」一文了解二進位制和CPU工作原理
2020-06-02
Java

Hadoop周邊生態軟體和簡要工作原理(二)薦

相關文章