Hadoop介紹
Hadoop介紹
Apache Hadoop 是Apache開源組織的一個分散式計算開源框架,提供了一個分散式檔案系統子專案(HDFS)和支援MapReduce分散式計算的軟體架構。簡單來說,Hadoop是一個可以更容易開發和執行處理大規模資料的軟體平臺。Hadoop實現了一個分散式叢集檔案系統(HadoopDistributedFileSystem)。分散式叢集檔案系統的意思是:每臺計算機各自提供自己的儲存空間,並各自協調管理所有計算機節點(node)中的檔案。
Hadoop · MapReduce
Architecture
Hadoop在網路計算機叢集上執行,每個節點執行一組守護程式。
• 資源管理器ResourceManager — computing
• 節點管理器NodeManager — computing
• 名稱節點NameNode — storage
• 二級節點名稱SecondaryNameNode — storage
• 資料節點DataNode — storage
Master-Slave architecture
Map/Reduce框架由一個單獨的master JobTracker 和每個叢集節點一個slave TaskTracker共同組成。master負責排程構成一個作業的所有任務,這些任務分佈在不同的slave上,master監控它們的執行,重新執行已經失敗的任務。而slave僅負責執行由master指派的任務。
Master節點 (1)
• 管理所有Slave的節點
• 接受外界請求
• 分配誰什麼時候執行什麼任務
• 與Slave節點交流
Slave節點 (1..*)
• 執行任務
• 執行Master節點
Job flow
- 將input data分成到computing chunks中
- 將一個chunk分配到一個Map 節點
- 執行所有的Mappers
- Shuffle and sort
- 執行所有的Reducers
- Reducers的結果組成了這個job的output
Hadoop 優缺點
Hadoop 並不是針對所有情況的完美的解決方案
1. Hadoop是一個batch processing framework,用來處理非常大的dataset
2. Hadoop時延高,只適用Batch資料處理,對於互動式資料處理,實時資料處理的支援不夠
2. 因為data已經是distributed,Hadoop在處理Map phase的時候很高效(efficient)
2. Hadoop在I/O communication方面表現不是那麼好。Hadoop在job執行過程中,頻繁的對hdfs進行檔案讀取/寫入操作,io操作頻繁。並且shuffle and sort會引發large network traffic
4. Hadoop沒有對迭代(iteration)的原生支援
5. Hadoop只有一個同步屏障(synchronisation barrier)
相關文章
- Hadoop Hive介紹HadoopHive
- Hadoop Sqoop介紹Hadoop
- Hadoop進階命令使用介紹Hadoop
- Hadoop-HA節點介紹Hadoop
- hadoop實戰3(web管理介面介紹及NN,DN,SNN介紹)HadoopWeb
- 大資料 Hadoop介紹、配置與使用大資料Hadoop
- 大資料和Hadoop平臺介紹大資料Hadoop
- Hadoop叢集中Hbase的介紹、安裝、使用Hadoop
- Hadoop 從 0 到 1 學習 ——第一章 Hadoop 介紹Hadoop
- Hadoop 簡介Hadoop
- Hadoop簡介!Hadoop
- 大資料系統框架中hadoop服務角色介紹大資料框架Hadoop
- hadoop實戰2-更改指定hostname啟動hadoop,jps介紹,yarn部署,yarn上執行程式HadoopYarn行程
- hadoop常用四大模組及五大程式節點介紹Hadoop
- hadoop中文版本下載選擇與平臺監控引數介紹Hadoop
- Hadoop - 企業級大資料管理平臺CDH(介紹和準備工作)Hadoop大資料
- 介紹
- 第一章:Hadoop生態系統及執行MapReduce任務介紹!Hadoop
- Proxy介紹
- Reflect介紹
- Azkaban介紹
- 模式介紹模式
- ZooKeeper介紹
- css介紹CSS
- PostgreSQLHooK介紹SQLHook
- DuelJS 介紹JS
- Docker介紹Docker
- StarRocks 介紹
- JCache 介紹
- zigbee 介紹
- GO 介紹Go
- RPC介紹RPC
- springcloud介紹SpringGCCloud
- CSRedisCore 介紹Redis
- AJAX 介紹
- php介紹PHP
- Pyzmq介紹MQ
- uniswap介紹
- LDAP 介紹LDA