Hadoop-Impala效能最佳化系列開幕
1 Hadoop-Impala效能最佳化系列開幕
1.1 序和簡介
1.1.1 序
某集團資料中心業務支撐平臺建設也2年了,磕磕碰碰一路走來。最近的hadoop業務大規模急速上升,出現不少問題。專案中集團三地叢集均使用了impala作為計算引擎,效能直接提升顯,同時也存在一些問題,本文結合自己的實踐和官方的文件,做個整理,不敢獨享。
由於專案本身繁忙,空閒時間較少,只能加班整理文件,倉促中整理過程中難免有不合適的地方,也請同行批評指正。本文適合初學者以及想對impala有個系統的最佳化調優人員。
1.1.2 簡介
Impala是Cloudera公司主導開發的新型查詢系統,它提供SQL語義,能查詢儲存在Hadoop的HDFS和HBase中的PB級大資料。已有的Hive系統雖然也提供了SQL語義,但由於Hive底層執行使用的是MapReduce引擎,仍然是一個批處理過程,難以滿足查詢的互動性。相比之下,Impala的最大特點也是最大賣點就是它的快速。
1.1.3 優點
Impala不需要把中間結果寫入磁碟,省掉了大量的I/O開銷。
省掉了MapReduce作業啟動的開銷。MapReduce啟動task的速度很慢(預設每個心跳間隔是3秒鐘),Impala直接透過相應的服務程式來進行作業排程,速度快了很多。
Impala完全拋棄了MapReduce這個不太適合做SQL查詢的正規化,而是像Dremel一樣借鑑了MPP並行資料庫的思想另起爐灶,因此可做更多的查詢最佳化,從而省掉不必要的shuffle、sort等開銷。
透過使用LLVM來統一編譯執行時程式碼,避免了為支援通用編譯而帶來的不必要開銷。
用C++實現,做了很多有針對性的硬體最佳化,例如使用SSE指令。
使用了支援Data locality的I/O排程機制,儘可能地將資料和計算分配在同一臺機器上進行,減少了網路開銷。
1.1.4 缺點
任何偉大的事物都是缺陷的美,impala也是同樣,有各種各樣的不完美,甚至是坑,但作為新生事物,我們不必求全責備,適合場景就好。(後期將會整理缺點和若干的坑系列,喜歡的朋友保持關注即可。)
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/24179204/viewspace-2129413/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Hadoop-impala十大最佳化之(2)—impala連線查詢效能最佳化及最佳實踐Hadoop
- Hadoop-Impala十大最佳化系列之(1)—分割槽表最佳化-8個方法讓分割槽最最佳化Hadoop
- Redis系列23:效能最佳化指南Redis
- Impala 5.7效能最佳化系列-10大最佳化思路
- ORACLE SQL效能最佳化系列 (十) (轉)OracleSQL
- ORACLE SQL效能最佳化系列 (十一) (轉)OracleSQL
- ORACLE SQL效能最佳化系列 (一) (轉)OracleSQL
- ORACLE SQL效能最佳化系列 (二) (轉)OracleSQL
- ORACLE SQL效能最佳化系列 (三) (轉)OracleSQL
- ORACLE SQL效能最佳化系列 (四) (轉)OracleSQL
- ORACLE SQL效能最佳化系列 (九) (轉)OracleSQL
- ORACLE SQL效能最佳化系列 (五) (轉)OracleSQL
- ORACLE SQL效能最佳化系列 (八) (轉)OracleSQL
- ORACLE SQL效能最佳化系列 (六) (轉)OracleSQL
- ORACLE SQL效能最佳化系列 (七) (轉)OracleSQL
- ORACLE SQL效能最佳化系列 (十二) (轉)OracleSQL
- 效能最佳化系列專題預告
- VUE系列之效能最佳化--懶載入Vue
- Oracle SQL效能最佳化系列講座之三(轉)OracleSQL
- Oracle SQL效能最佳化系列講座之二(轉)OracleSQL
- Oracle SQL效能最佳化系列講座之一(轉)OracleSQL
- ORACLE SQL效能最佳化系列 (十四) 完結篇 (轉)OracleSQL
- 騰訊雲 CIF 工程效能峰會順利開幕,CODING 釋出系列新產品
- Shopify Theme 開發 —— 效能最佳化
- 資料庫系列:MySQL慢查詢分析和效能最佳化資料庫MySql
- 【效能最佳化】ORACLE資料庫效能最佳化概述Oracle資料庫
- mongodb核心原始碼實現及效能最佳化系列:Mongodb特定場景效能數十倍提升最佳化實踐MongoDB原始碼
- 遊戲開發中遊戲效能的最佳化遊戲開發
- PHP開發規範之效能最佳化分享PHP
- Unity效能最佳化CPU最佳化Unity
- oracle 效能最佳化Oracle
- 前端效能最佳化前端
- JavaScript效能最佳化JavaScript
- HarmonyOS 效能最佳化
- MethodImpl最佳化效能
- Hadoop-impala十大最佳化之(3)—impala表和列資訊統計操作最佳實踐Hadoop
- 新知同享 | Web 開發效能提升,最佳化體驗Web
- Netty服務端開發及效能最佳化Netty服務端