大資料SQL中的Join謂詞下推，真的那麼難懂？

大資料技術派發表於2021-11-09

原文網址 : https://www.cnblogs.com/data-magnifier/p/15531261.html

聽到謂詞下推這個詞，是不是覺得很高大上，找點資料看了半天才能搞懂概念和思想，借這個機會好好學習一下吧。

引用範欣欣大佬的部落格中寫道，以前經常滿大街聽到謂詞下推，然而對謂詞下推卻總感覺懵懵懂懂，並不明白的很真切。這裡拿出來和大家交流交流。個人認為謂詞下推有兩個層面的理解：

其一是邏輯執行計劃優化層面的說法，比如SQL語句：select * from order ,item where item.id = order.item_id and item.category = ‘book’，正常情況語法解析之後應該是先執行Join操作，再執行Filter操作。通過謂詞下推，可以將Filter操作下推到Join操作之前執行。即將where item.category = ‘book’下推到 item.id = order.item_id之前先行執行。
其二是真正實現層面的說法，謂詞下推是將過濾條件從計算程式下推到儲存程式先行執行，注意這裡有兩種型別程式：計算程式以及儲存程式。計算與儲存分離思想，這在大資料領域相當常見，比如最常見的計算程式有SparkSQL、Hive、impala等，負責SQL解析優化、資料計算聚合等，儲存程式有HDFS（DataNode）、Kudu、HBase，負責資料儲存。正常情況下應該是將所有資料從儲存程式載入到計算程式，再進行過濾計算。謂詞下推是說將一些過濾條件下推到儲存程式，直接讓儲存程式將資料過濾掉。這樣的好處顯而易見，過濾的越早，資料量越少，序列化開銷、網路開銷、計算開銷這一系列都會減少，效能自然會提高。

謂詞下推 Predicate Pushdown（PPD）：簡而言之，就是在不影響結果的情況下，儘量將過濾條件提前執行。謂詞下推後，過濾條件在map端執行，減少了map端的輸出，降低了資料在叢集上傳輸的量，節約了叢集的資源，也提升了任務的效能。

PPD 配置
PPD控制引數：hive.optimize.ppd，預設值：true

PPD規則：

	Preserved Row tables	Null Supplying tables
Join Predicate	Case J1: Not Pushed	Case J2: Pushed
Where Predicate	Case W1: Pushed	Case W2: Not Pushed

Push：謂詞下推，可以理解為被優化
Not Push：謂詞沒有下推，可以理解為沒有被優化

實驗

實驗結果列表形式：

Pushed or Not	SQL
Pushed	select ename,dept_name from E join D on ( E.dept_id = D.dept_id and E.eid='HZ001');
Pushed	select ename,dept_name from E join D on E.dept_id = D.dept_id where E.eid='HZ001';
Pushed	select ename,dept_name from E join D on ( E.dept_id = D.dept_id and D.dept_id='D001');
Pushed	select ename,dept_name from E join D on E.dept_id = D.dept_id where D.dept_id='D001';
Not Pushed	select ename,dept_name from E left outer join D on ( E.dept_id = D.dept_id and E.eid='HZ001');
Pushed	select ename,dept_name from E left outer join D on E.dept_id = D.dept_id where E.eid='HZ001';
Pushed	select ename,dept_name from E left outer join D on ( E.dept_id = D.dept_id and D.dept_id='D001');
Not Pushed	select ename,dept_name from E left outer join D on E.dept_id = D.dept_id where D.dept_id='D001';
Pushed	select ename,dept_name from E right outer join D on ( E.dept_id = D.dept_id and E.eid='HZ001');
Not Pushed	select ename,dept_name from E right outer join D on E.dept_id = D.dept_id where E.eid='HZ001';
Not Pushed	select ename,dept_name from E right outer join D on ( E.dept_id = D.dept_id and D.dept_id='D001');
Pushed	select ename,dept_name from E right outer join D on E.dept_id = D.dept_id where D.dept_id='D001';
Not Pushed	select ename,dept_name from E full outer join D on ( E.dept_id = D.dept_id and E.eid='HZ001');
Not Pushed	select ename,dept_name from E full outer join D on E.dept_id = D.dept_id where E.eid='HZ001';
Not Pushed	select ename,dept_name from E full outer join D on ( E.dept_id = D.dept_id and D.dept_id='D001');
Not Pushed	select ename,dept_name from E full outer join D on E.dept_id = D.dept_id where D.dept_id='D001';

實驗結果表格形式：

predicate

此表實際上就是上述PPD規則表。

結論

1、對於Join(Inner Join)、Full outer Join，條件寫在on後面，還是where後面，效能上面沒有區別；
2、對於Left outer Join ，右側的表寫在on後面、左側的表寫在where後面，效能上有提高；
3、對於Right outer Join，左側的表寫在on後面、右側的表寫在where後面，效能上有提高；
4、當條件分散在兩個表時，謂詞下推可按上述結論2和3自由組合，情況如下：

SQL	過濾時機
`select ename,dept_name from E left outer join D on ( E.dept_id = D.dept_id and E.eid='HZ001' and D.dept_id = 'D001');`	dept_id在map端過濾，eid在reduce端過濾
`select ename,dept_name from E left outer join D on ( E.dept_id = D.dept_id and D.dept_id = 'D001') where E.eid='HZ001';`	dept_id，eid都在map端過濾
`select ename,dept_name from E left outer join D on ( E.dept_id = D.dept_id and E.eid='HZ001') where D.dept_id = 'D001';`	dept_id，eid都在reduce端過濾
`select ename,dept_name from E left outer join D on ( E.dept_id = D.dept_id ) where E.eid='HZ001' and D.dept_id = 'D001';`	dept_id在reduce端過濾，eid在map端過濾

注意：如果在表示式中含有不確定函式，整個表示式的謂詞將不會被pushed，例如

select a.* 
from a join b on a.id = b.id
where a.ds = '2019-10-09' and a.create_time = unix_timestamp();

因為unix_timestamp是不確定函式，在編譯的時候無法得知，所以，整個表示式不會被pushed，即ds='2019-10-09'也不會被提前過濾。類似的不確定函式還有rand()等。

參考文獻：
[1] https://cwiki.apache.org/confluence/display/Hive/OuterJoinBehavior

引用：https://blog.csdn.net/strongyoung88/article/details/81156271

【大資料】SparkSql連線查詢中的謂詞下推處理(一)
2019-05-23
大資料SparkSQL
【大資料】SparkSql 連線查詢中的謂詞下推處理 (二)
2019-06-04
大資料SparkSQL
Python的協程真的有那麼難嗎？
2018-06-27
Python
謂詞下推：計算和儲存分開進行分析是低效的？
2022-02-03
【TUNE_ORACLE】列出SQL謂詞中需要建立索引的列SQL參考
2021-08-06
OracleSQL索引
SQL 改寫系列七：謂詞移動
2022-07-29
SQL
SQL 改寫系列六：謂詞推導
2022-07-18
SQL
【SQL】Oracle查詢轉換之謂詞推送
2021-09-15
SQLOracle
API 與 Webhook，其實並沒有那麼難懂
2022-04-13
APIWebHook
傳說中的“謂詞越界“場景
2018-12-25
Flink SQL 如何實現資料流的 Join？
2019-12-24
SQL
SQL語句中不同的連線JOIN及SQL中join的各種用法
2018-12-17
SQL
C++謂詞
2020-11-10
C++
Java 8謂詞鏈
2018-12-21
Java
03-NSPredicate謂詞
2019-01-02
Redis真的那麼好用嗎？
2018-12-04
Redis
【前端詞典】繼承（一） - 原型鏈你真的懂嗎？
2019-01-14
前端繼承原型
你真的懂Redis的5種基本資料結構嗎？
2021-11-19
Redis資料結構
[資料庫][SQL]圖解各種連線join
2019-03-28
資料庫SQL圖解
恕我直言你可能真的不會java第3篇：Stream的Filter與謂詞邏輯
2020-06-18
JavaFilter
NER為什麼那麼難
2021-10-09
java8-謂詞（predicate）
2019-02-20
Java
sql的left join 、right join 、inner join之間的區別
2018-07-02
SQL
賺錢，沒你想的那麼難
2018-09-19
剖析後OpLog訂閱MongoDB的資料變更就沒那麼難了
2022-03-01
MongoDB
六面天貓，已拿 offer，我的面經覆盤總結，大廠真的有那麼難進嗎？
2022-02-22
程式設計師也難逃的二八定律，成為頂級程式設計師真的有那麼難嗎？
2019-01-25
程式設計師
【SQL】13 SQL 別名、SQL 連線(JOIN)、SQL INNER JOIN 關鍵字、SQL LEFT JOIN 關鍵字、SQL RIGHT JOIN 關鍵字、SQL FULL OUTER J
2018-07-26
SQL
從入門到放棄？做個「懂」技術的產品經理沒那麼難！
2018-05-05
sql：left join和join區別
2024-05-17
SQL
5.1一階謂詞邏輯
2020-05-26
原子謂詞公式和合式公式
2020-09-23
公式
遊戲的留存為什麼那麼難調？
2020-09-04
遊戲
帶你瞭解資料庫中JOIN的用法
2019-04-07
資料庫
大資料技術 - 為什麼是SQL
2019-05-14
大資料SQL
sql語句中JOIN ON 的使用
2019-03-15
SQL
一條SQL完成跨資料庫例項Join查詢
2019-04-09
SQL資料庫
大資料開發-Spark Join原理詳解
2021-02-09
大資料Spark

大資料SQL中的Join謂詞下推，真的那麼難懂？

實驗

結論

相關文章