拜託，在資料庫中執行計算

unblock發表於2014-04-01

如果一個計算應該在資料庫端執行，而卻沒有這麼做，那將是大錯特錯。

我們並非提倡將所有業務邏輯盲目地移到資料庫，但當我在 StackOverflow 看到一個這樣的問題時，就有種衝動想讓你看下這篇熱文—— 10 Common Mistakes Java Developers Make When Writing SQL ——中的第二點。

那個 stack overflow 上的問題，本質上來說是這樣的：

在如下的中型表中，我想統計每個 App ID 中 status 為 0 或 1 的 doc 數

AppID | DocID | DocStatus 
------+-------+----------
1     | 100   | 0
1     | 101   | 1    
2     | 200   | 0    
2     | 300   | 1
...   | ...   | ...

AppID | DocID | DocStatus

------+-------+----------

1 | 100 | 0

1 | 101 | 1

2 | 200 | 0

2 | 300 | 1

... | ... | ...

我該使用 Hibernate 嗎？

答案是：不！別用 hibernate 來做（除非是寫 native query），應該用 SQL 來做。S——Q——L ！使用SQL Server的話，有很多簡單的做法來實現這個查詢，而且時間會比將全部資料不作聚集就裝到 java 記憶體少很多。

以 SQL Server 來舉個例：

使用 GROUP BY

這是最簡單的做法，但它不一定完全符合你的要求。即是，子集合不在同一行。

SELECT [AppID], [DocStatus], count(*)
FROM [MyTable]
GROUP BY [AppID], [DocStatus]

SELECT [AppID], [DocStatus], count(*)

FROM [MyTable]

GROUP BY [AppID], [DocStatus]

如 SQLFiddle 的例子，會查出這樣的東西：

| APPID | DOCSTATUS | COLUMN_2 |
|-------|-----------|----------|
|     1 |         0 |        2 |
|     2 |         0 |        3 |
|     1 |         1 |        3 |
|     2 |         1 |        2 |

| APPID | DOCSTATUS | COLUMN_2 |

|-------|-----------|----------|

| 1 | 0 | 2 |

| 2 | 0 | 3 |

| 1 | 1 | 3 |

| 2 | 1 | 2 |

使用 nested select

這可能就是那個特殊使用者所要的效果。他們可能想每個集合分別一列，而nest select就是最通用的實現手法之一。記住這種做法在某些資料庫上是有點慢的，需要花些時間制定執行計劃。

SELECT [AppID],
       (SELECT count(*) FROM [MyTable] [t2]
        WHERE [t1].[AppID] = [t2].[AppID]
        AND [DocStatus] = 0) [Status_0],
       (SELECT count(*) FROM [MyTable] [t2]
        WHERE [t1].[AppID] = [t2].[AppID]
        AND [DocStatus] = 1) [Status_1]
FROM [MyTable] [t1]
GROUP BY [AppID]

SELECT [AppID],

(SELECT count(*) FROM [MyTable] [t2]

WHERE [t1].[AppID] = [t2].[AppID]

AND [DocStatus] = 0) [Status_0],

(SELECT count(*) FROM [MyTable] [t2]

WHERE [t1].[AppID] = [t2].[AppID]

AND [DocStatus] = 1) [Status_1]

FROM [MyTable] [t1]

GROUP BY [AppID]

例如 SQLFiddle ，跑出這樣的東西：

| APPID | STATUS_0 | STATUS_1 |
|-------|----------|----------|
|     1 |        2 |        3 |
|     2 |        3 |        2 |

| APPID | STATUS_0 | STATUS_1 |

|-------|----------|----------|

| 1 | 2 | 3 |

| 2 | 3 | 2 |

使用 sum()

這可能是最佳的作法。它跟前面那個nest select一樣，但只能用於簡單的查詢，而前者更靈活。

SELECT [AppID],
       SUM(IIF([DocStatus] = 0, 1, 0)) [Status_0],
       SUM(IIF([DocStatus] = 1, 1, 0)) [Status_1]
FROM [MyTable] [t1]
GROUP BY [AppID]

SELECT [AppID],

SUM(IIF([DocStatus] = 0, 1, 0)) [Status_0],

SUM(IIF([DocStatus] = 1, 1, 0)) [Status_1]

FROM [MyTable] [t1]

GROUP BY [AppID]

例如 SQLFiddle ，結果如上。

使用 PIVOT

這種方案是為 SQL 迷而準備的。它使用了 T-SQL 的 PIVOT 子句！

SELECT [AppID], [0], [1]
FROM (
    SELECT [AppID], [DocStatus]
    FROM [MyTable]
) [t]
PIVOT (
    count([DocStatus]) 
    FOR [DocStatus] 
    IN ([0], [1])
) [pvt]

SELECT [AppID], [0], [1]

FROM (

SELECT [AppID], [DocStatus]

FROM [MyTable]

) [t]

PIVOT (

count([DocStatus])

FOR [DocStatus]

IN ([0], [1])

) [pvt]

SQL 迷就該用 PIVOT ！

例如 SQLFiddle ，結果亦如上。

結論

以上建議任君選擇，而且我也相信還有更多方案。它們都比基於java的聚合好幾個數量級，即使是在少量資料的情況下。我們將多次重申這個觀點。

正如 Gavin King 所說的：

你在使用 Hibernate，並不就意味著你把它套到所有事情上。這是我說了十幾年的話了。

轉為我們的說法就是：

該用 SQL 的時候就用 SQL ，它的適應性超乎你想象。

拜託，不要再問我執行緒池啦！
2020-10-19
執行緒
淺談雲端計算時代的資料庫執行
2019-01-29
資料庫
華納雲：怎麼在Docker中執行資料庫？
2024-01-19
Docker資料庫
在 Kubernetes 中執行 Oracle 資料庫的新方法
2022-01-06
Oracle資料庫
【PG執行計劃】Postgresql資料庫執行計劃統計資訊簡述
2019-01-10
SQL資料庫
拜託！別再問我多執行緒的這些問題了
2020-09-02
執行緒
C#Invoke委託在多執行緒中的使用
2018-10-19
C#執行緒
資料庫安全審計在資料安全中的功能
2019-12-05
資料庫
Gartner：預計到2022年75%的資料庫將託管在雲端
2019-07-04
資料庫
在同一臺計算機中執行多個MySQL服務
2021-09-06
計算機MySql
使用set autotrace on 檢視資料庫執行計劃
2018-12-18
資料庫
如何閱讀PG資料庫的執行計劃
2024-02-20
資料庫
ACCESS 在資料表中實現簡單計算
2024-06-13
Classy：根據資料庫表在執行時建立類/模型
2024-12-08
資料庫模型
GraphX 在圖資料庫 Nebula Graph 的圖計算實踐
2020-11-11
資料庫
在 MySQL 中，如何計算一組資料的中位數？
2018-10-17
MySql
Oracle資料庫關於SQL的執行計劃(轉)
2019-05-25
Oracle資料庫SQL
達夢資料庫SQL執行計劃檢視方法
2021-08-10
資料庫SQL
拜託，面試別再問我計數排序了！！！
2018-10-29
面試排序
Kettle資料庫資源庫連線執行示例
2020-10-11
資料庫
mybatis（問題1）：更改操作執行了，資料庫中卻未執行
2020-12-18
MyBatis資料庫
【YashanDB知識庫】ycm託管資料庫時，資料庫非OM安裝無法託管
2024-05-13
資料庫
探秘資料庫中的平行計算技術應用
2024-07-01
資料庫
如何更好的解讀QianBase MPP資料庫執行計劃
2023-03-03
資料庫
你需要託管資料庫嗎？
2022-11-14
資料庫
EBS:Oracle 資料庫執行慢SQL
2024-06-09
Oracle資料庫SQL
docker 安裝執行mysql資料庫
2024-11-28
DockerMySql資料庫
在MySQL中，如何獲取資料庫下所有表的資料行數？
2019-04-24
MySql資料庫
五分鐘掃盲：程式在計算機中是如何執行起來的
2021-04-15
計算機
在MongoDB資料庫中查詢資料(上)
2018-06-23
MongoDB資料庫
資料庫在資料分析中如何應用
2020-12-28
資料庫
達夢資料庫獲取SQL真實的執行計劃
2024-08-20
資料庫SQL
MetaWork：拜託，這樣遠端結對程式設計超酷的！
2022-04-23
程式設計
Laravel 資料庫佇列倒序執行
2019-04-11
Laravel資料庫佇列
Oracle 資料庫執行提示：ORA-00054
2024-05-08
Oracle資料庫
在 Flink 運算元中使用多執行緒如何保證不丟資料？
2019-12-30
執行緒
Python 計算生態中那些著名的庫-資料視覺化
2019-08-08
Python視覺化
在JS中統計函式執行次數
2018-10-26
JS函式
成為MySQL DBA後，再看ORACLE資料庫（十四、統計資訊與執行計劃）
2024-08-14
MySqlOracle資料庫

拜託，在資料庫中執行計算

相關文章