sql用法——group by

kaiyinkaiyin發表於2011-02-17

group by

[@more@]

1. Group By 語句簡介:

  Group By語句從英文的字面意義上理解就是“根據(by)一定的規則進行分組(Group)”。它的作用是透過一定的規則將一個資料集劃分成若干個小的區域,然後針對若干個小區域進行資料處理。
  2. Group By 的使用:
  上面已經給出了對Group By語句的理解。基於這個理解和SQL Server 2000的聯機幫助,下面對Group By語句的各種典型使用進行依次列舉說明。
  2.1 Group By [Expressions]:
  這個恐怕是Group By語句最常見的用法了,Group By + [分組欄位](可以有多個)。在執行了這個操作以後,資料集將根據分組欄位的值將一個資料集劃分成各個不同的小組。比如有如下資料集,其中水果名稱(FruitName)和出產國家(ProductPlace)為聯合主鍵:
  
FruitNameProductPlacePrice
AppleChina$1.1
AppleJapan$2.1
AppleUSA$2.5
OrangeChina$0.8
BananaChina$3.1
PeachUSA$3.0
 如果我們想知道每個國家有多少種水果,那麼我們可以透過如下SQL語句來完成:
  SELECT COUNT(*) AS 水果種類, ProductPlace AS 出產國
  FROM T_TEST_FRUITINFO
  GROUP BY ProductPlace
  這個SQL語句就是使用了Group By + 分組欄位的方式,那麼這句SQL語句就可以解釋成“我按照出產國家(ProductPlace)將資料集進行分組,然後分別按照各個組來統計各自的記錄數量。”很好理解對吧。這裡值得注意的是結果集中有兩個返回欄位,一個是ProductPlace(出產國), 一個是水果種類。如果我們這裡水果種類不是用Count(*),而是類似如下寫法的話:
  SELECT FruitName, ProductPlace FROM T_TEST_FRUITINFO GROUP BY ProductPlace
  那麼SQL在執行此語句的時候會報如下的類似錯誤:
  選擇列表中的列 'T_TEST_FRUITINFO.FruitName' 無效,因為該列沒有包含在聚合函式或 GROUP BY 子句中。
  這就是我們需要注意的一點,如果在返回集欄位中,這些欄位要麼就要包含在Group By語句的後面,作為分組的依據;要麼就要被包含在聚合函式中。我們可以將Group By操作想象成如下的一個過程,首先系統根據SELECT 語句得到一個結果集,如最開始的那個水果、出產國家、單價的一個詳細表。然後根據分組欄位,將具有相同分組欄位的記錄歸併成了一條記錄。這個時候剩下的那些不存在於Group By語句後面作為分組依據的欄位就有可能出現多個值,但是目前一種分組情況只有一條記錄,一個資料格是無法放入多個數值的,所以這裡就需要透過一定的處理將這些多值的列轉化成單值,然後將其放在對應的資料格中,那麼完成這個步驟的就是聚合函式。這就是為什麼這些函式叫聚合函式(aggregate functions)了。
  2.2 Group By All [expressions] :
  Group By All + 分組欄位, 這個和前面提到的Group By [Expressions]的形式多了一個關鍵字ALL。這個關鍵字只有在使用了where語句的,且where條件篩選掉了一些組的情況才可以看出效果。在SQL Server 2000的聯機幫助中,對於Group By All是這樣進行描述的:
  如果使用 ALL 關鍵字,那麼查詢結果將包括由 GROUP BY 子句產生的所有組,即使某些組沒有符合搜尋條件的行。沒有 ALL 關鍵字,包含 GROUP BY 子句的 SELECT 語句將不顯示沒有符合條件的行的組。
  其中有這麼一句話“如果使用ALL關鍵字,那麼查詢結果將包含由Group By子句產生的所有組...沒有ALL關鍵字,那麼不顯示不符合條件的行組。”這句話聽起來好像挺耳熟的,對了,好像和LEFT JOIN 和 RIGHT JOIN 有點像。其實這裡是類比LEFT JOIN來進行理解的。還是基於如下這樣一個資料集:
  
FruitNameProductPlacePrice
AppleChina$1.1
AppleJapan$2.1
AppleUSA$2.5
OrangeChina$0.8
BananaChina$3.1
PeachUSA$3.0
 首先我們不使用帶ALL關鍵字的Group By語句:
  SELECT COUNT(*) AS 水果種類, ProductPlace AS 出產國
  FROM T_TEST_FRUITINFO
  WHERE (ProductPlace <> 'Japan')
  GROUP BY ProductPlace
  那麼在最後結果中由於Japan不符合where語句,所以分組結果中將不會出現Japan。
  現在我們加入ALL關鍵字:
  SELECT COUNT(*) AS 水果種類, ProductPlace AS 出產國
  FROM T_TEST_FRUITINFO
  WHERE (ProductPlace <> 'Japan')
  GROUP BY ALL ProductPlace
  重新執行後,我們可以看到Japan的分組,但是對應的“水果種類”不會進行真正的統計,聚合函式會根據返回值的型別用預設值0或者NULL來代替聚合函式的返回值。
  2.3 GROUP BY [Expressions] WITH CUBE | ROLLUP:
  首先需要說明的是Group By All 語句是不能和CUBE 和 ROLLUP 關鍵字一起使用的。
  首先先說說CUBE關鍵字,以下是SQL Server 2000聯機幫助中的說明:
  指定在結果集內不僅包含由 GROUP BY 提供的正常行,還包含彙總行。在結果集內返回每個可能的組和子組組合的 GROUP BY 彙總行。GROUP BY 彙總行在結果中顯示為 NULL,但可用來表示所有值。使用 GROUPING 函式確定結果集內的空值是否是 GROUP BY 彙總值。
  結果集內的彙總行數取決於 GROUP BY 子句內包含的列數。GROUP BY 子句中的每個運算元(列)繫結在分組 NULL 下,並且分組適用於所有其它運算元(列)。由於 CUBE 返回每個可能的組和子組組合,因此不論指定分組列時所使用的是什麼順序,行數都相同。
  我們通常的Group By語句是按照其後所跟的所有欄位進行分組,而如果加入了CUBE關鍵字以後,那麼系統將根據所有欄位進行分組的基礎上,還會透過對所有這些分組欄位所有可能存在的組合形成的分組條件進行分組計算。由於上面舉的例子過於簡單,這裡就再適合了,現在我們的資料集將換一個場景,一個表中包含人員的基本資訊:員工所在的部門編號(C_EMPLINFO_DEPTID)、員工性別(C_EMPLINFO_SEX)、員工姓名(C_EMPLINFO_NAME)等。那麼我現在想知道每個部門各個性別的人數,那麼我們可以透過如下語句得到:
  SELECT C_EMPLINFO_DEPTID, C_EMPLINFO_SEX, COUNT(*) AS C_EMPLINFO_TOTALSTAFFNUM
  FROM T_PERSONNEL_EMPLINFO
  GROUP BY C_EMPLINFO_DEPTID, C_EMPLINFO_SEX
  但是如果我現在希望知道:
  1. 所有部門有多少人(這裡相當於就不進行分組了,因為這裡已經對員工的部門和性別沒有做任何限制了,但是這的確也是一種分組條件的組合方式);
  2. 每種性別有多人(這裡實際上是僅僅根據性別(C_EMPLINFO_SEX)進行分組);
  3. 每個部門有多少人(這裡僅僅是根據部門(C_EMPLINFO_DEPTID)進行分組);那麼我們就可以使用ROLLUP語句了。
  SELECT C_EMPLINFO_DEPTID, C_EMPLINFO_SEX, COUNT(*) AS C_EMPLINFO_TOTALSTAFFNUM
  FROM T_PERSONNEL_EMPLINFO
  GROUP BY C_EMPLINFO_DEPTID, C_EMPLINFO_SEX WITH CUBE
  那麼這裡你可以看到結果集中多出了很多行,而且結果集中的某一個欄位或者多個欄位、甚至全部的欄位都為NULL,請仔細看一下你就會發現實際上這些記錄就是完成了上面我所列舉的所有統計資料的展現。使用過SQL Server 2005或者RDLC的朋友們一定對於矩陣的小計和分組功能有印象吧,是不是都可以透過這個得到答案。我想RDLC中對於分組和小計的計算就是透過Group By的CUBE和ROLLUP關鍵字來實現的。(個人意見,未證實)
  CUBE關鍵字還有一個極為相似的兄弟ROLLUP, 同樣我們先從這英文入手,ROLL UP是“向上卷”的意思,如果說CUBE的組合是絕對自由的,那麼ROLLUP的組合就需要有點約束了。我們先來看看SQL Server 2000的聯機中對ROLLUP關鍵字的定義:
  指定在結果集內不僅包含由 GROUP BY 提供的正常行,還包含彙總行。按層次結構順序,從組內的最低階別到最高階別彙總組。組的層次結構取決於指定分組列時所使用的順序。更改分組列的順序會影響在結果集內生成的行數。
  那麼這個順序是什麼呢?對了就是Group By 後面欄位的順序,排在靠近Group By的分組欄位的級別高,然後是依次遞減。如:Group By Column1, Column2, Column3。那麼分組級別從高到低的順序是:Column1 > Column2 > Column3。還是看我們前面的例子,SQL語句中我們僅僅將CUBE關鍵字替換成ROLLUP關鍵字,如:
  SELECT C_EMPLINFO_DEPTID, C_EMPLINFO_SEX, COUNT(*) AS C_EMPLINFO_TOTALSTAFFNUM
  FROM T_PERSONNEL_EMPLINFO
  GROUP BY C_EMPLINFO_DEPTID, C_EMPLINFO_SEX WITH ROLLUP
  和CUBE相比,返回的資料行數減少了不少。:),仔細看一下,除了正常的Group By語句後,資料中還包含了:
  1. 部門員工數;(向上捲了一次,這次先去掉了員工性別的分組限制)
  2. 所有部門員工數;(向上又捲了依次,這次去掉了員工所在部門的分組限制)。
  在現實的應用中,對於報表的一些統計功能是很有幫助的。
  這裡還有一個問題需要補充說明一下,如果我們使用ROLLUP或者CUBE關鍵字,那麼將產生一些小計的行,這些行中被剔除在分組因素之外的欄位將會被設定為NULL,那麼還存在一種情況,比如在作為分組依據的列表中存在可空的行,那麼NULL也會被作為一個分組表示出來,所以這裡我們就不能僅僅透過NULL來判斷是不是小計記錄了。下面的例子展示了這裡說得到的情況。還是我們前面提到的水果例子,現在我們在每種商品後面增加一個“折扣列”(Discount),用於顯示對應商品的折扣,這個數值是可空的,也就是可以透過NULL來表示沒有對應的折扣資訊。資料集如下所示:
  
FruitNameProductPlacePriceDiscount
AppleChina$1.10.8
AppleJapan$2.10.9
AppleUSA$2.51.0
OrangeChina$0.8NULL
BananaChina$3.1NULL
PeachUSA$3.0NULL
 現在我們要統計“各種折扣對應有多少種商品,並總計商品的總數。”,那麼我們可以透過如下的SQL語句來完成:
  SELECT COUNT(*) AS ProductCount, Discount
  FROM T_TEST_FRUITINFO
  GROUP BY Discount WITH ROLLUP
  好了,執行一下,你會發現資料都正常出來了,按照如上的資料集,結果如下所示:
  
ProductCountDiscount
3NULL
10.8
10.9
11.0
6NULL
 好了,各種折扣的商品數量都出來了,但是在顯示“沒有折扣商品”和“商品小計”的時候判斷上確存在問題,因為存在兩條Discount為Null的記錄。是哪一條呢?透過分析資料我們知道第一條資料(3, Null)應該對應沒有折扣商品的數量,而(6,Null)應該對應所有商品的數量。需要判斷這兩個具有不同意義的Null就需要引入一個聚合函式Grouping。現在我們把語句修改一下,在返回值中使用Grouping函式增加一列返回值,SQL語句如下:
  SELECT COUNT(*) AS ProductCount, Discount, GROUPING(Discount) AS Expr1
  FROM T_TEST_FRUITINFO
  GROUP BY Discount WITH ROLLUP
  這個時候,我們再看看執行的結果:
  
ProductCountDiscountExpr1
3NULL0
10.80
10.90
11.00
6NULL1
 對於根據指定欄位Grouping中包含的欄位進行小計的記錄,這裡會標記為1,我們就可以透過這個標記值將小計記錄從判斷那些由於ROLLUP或者CUBE關鍵字產生的行。Grouping(column_name)可以帶一個引數,Grouping就會去判斷對應的欄位值的NULL是否是由ROLLUP或者CUBE產生的特殊NULL值,如果是那麼就在由Grouping聚合函式產生的新列中將值設定為1。注意Grouping只會檢查Column_name對應的NULL來決定是否將值設定為1,而不是完全由此列是否是由ROLLUP或者CUBE關鍵字自動新增來決定的。
  2.2 Group By 和 Having, Where ,Order by語句的執行順序:
  最後要說明一下的Group By, Having, Where, Order by幾個語句的執行順序。一個SQL語句往往會產生多個臨時檢視,那麼這些關鍵字的執行順序就非常重要了,因為你必須瞭解這個關鍵字是在對應檢視形成前的欄位進行操作還是對形成的臨時檢視進行操作,這個問題在使用了別名的檢視尤其重要。以上列舉的關鍵字是按照如下順序進行執行的:Where, Group By, Having, Order by。首先where將最原始記錄中不滿足條件的記錄刪除(所以應該在where語句中儘量的將不符合條件的記錄篩選掉,這樣可以減少分組的次數),然後透過Group By關鍵字後面指定的分組條件將篩選得到的檢視進行分組,接著系統根據Having關鍵字後面指定的篩選條件,將分組檢視後不滿足條件的記錄篩選掉,然後按照Order By語句對檢視進行排序,這樣最終的結果就產生了。在這四個關鍵字中,只有在Order By語句中才可以使用最終檢視的列名,如:
  SELECT FruitName, ProductPlace, Price, ID AS IDE, Discount
  FROM T_TEST_FRUITINFO
  WHERE (ProductPlace = N'china')
  ORDER BY IDE
  這裡只有在ORDER BY語句中才可以使用IDE,其他條件語句中如果需要引用列名則只能使用ID,而不能使用IDE。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10957369/viewspace-1046113/,如需轉載,請註明出處,否則將追究法律責任。

相關文章