Impala 5.7效能最佳化系列-10大最佳化思路

ultradb發表於2016-12-01

1.1.1  Impala 5.7-10大最佳化思路

Impala中,提供了10大類最佳化思路和方法

1)       分割槽

2)       連線查詢效能考慮

3)       表和列資訊統計

4)       Impala效能測試:

5)       基準Impala查詢:

6)       控制Impala的資源使用情況:

7)      使用Impala查詢Amazon S3的檔案系統。

8)       HDFS快取

9)       執行計劃和查詢概況

10)    資料塊傾斜



表分割槽:基於不同列值進行查詢,避免大量無效資訊過濾,和常規資料庫分割槽理念一致。

連線查詢效能考慮:連線查詢的主要類,你可以在SQL級,相對於變化的物理因素如檔案格式或硬體配置。有關列統計和表統計的概述的相關主題也很重要,主要用於連線效能。

表和列資訊統計:概要表統計和列統計的概述。收集表和列的統計,計算統計報表,幫助impala自動最佳化效能的查詢,而不需要更改SQL查詢語句。(這個過程是在impala1.2.2高,大大簡化了計算統計表因為聚集在一個操作,這兩種型別的統計,不需要任何的安裝和配置進行必要的分析表的語句在hive。)

Impala效能測試:做一些安裝後的測試以確保Impala使用最優設定的效能基準測試之前,進行任何。

基準Impala查詢:配置和樣本資料,您使用的Impala最初的實驗和測試資料往往是不適合做效能測試。

控制Impala的資源使用情況:越多的Impala記憶體可以利用,你可以期待更好的查詢效能。但在叢集中執行的其他工作一樣,你必須權衡確保Hadoop所有元件有足夠的記憶體來執行的前提下,你可能使用蓋的記憶體,Impala可以使用,不能不能夠此時彼。

使用Impala查詢Amazon S3的檔案系統。對儲存在亞馬遜檔案系統(S3)和資料儲存在HDFS有不同的的資料查詢效能對比。

下篇:impala最佳化10指導原則和最佳實踐,敬請關注!

             在impala的官方文件中居然出現了十大最佳化思路和10大指導原則及最佳實踐,貌似衝突,實則是一致的,一個側重思路邏輯表達,一個側重具體實踐,在下一篇中將有詳細的每個技術要點和原則指導及最佳實踐案例,歡迎關注。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/24179204/viewspace-2129509/,如需轉載,請註明出處,否則將追究法律責任。

相關文章