例項詳解Django的 select_related 和 prefetch_related 函式對 QuerySet 查詢的優化(一)

熊鐸發表於2014-08-05

在資料庫有外來鍵的時候,使用 select_related() 和 prefetch_related() 可以很好的減少資料庫請求的次數,從而提高效能。本文通過一個簡單的例子詳解這兩個函式的作用。雖然QuerySet的文件中已經詳細說明了,但本文試圖從QuerySet觸發的SQL語句來分析工作方式,從而進一步瞭解Django具體的運作方式。

本來打算寫成一篇單獨的文章的,但是寫完select_related()之後發現長度已經有點長了,所以還是寫成系列,大概在兩到三篇。整個完成之後將會在這裡新增上其他文章的連結。

1. 例項的背景說明

假定一個個人資訊系統,需要記錄系統中各個人的故鄉、居住地、以及到過的城市。資料庫設計如下:

20140804002519328

Models.py 內容如下:

注1:建立的app名為“QSOptimize”

注2:為了簡化起見,qsoptimize_province 表中只有2條資料:湖北省和廣東省,qsoptimize_city表中只有三條資料:武漢市、十堰市和廣州市

2. select_related()

對於一對一欄位(OneToOneField)和外來鍵欄位(ForeignKey),可以使用select_related 來對QuerySet進行優化

作用和方法

在對QuerySet使用select_related()函式後,Django會獲取相應外來鍵對應的物件,從而在之後需要的時候不必再查詢資料庫了。以上例說明,如果我們需要列印資料庫中的所有市及其所屬省份,最直接的做法是:

這樣會導致線性的SQL查詢,如果物件數量n太多,每個物件中有k個外來鍵欄位的話,就會導致n*k+1次SQL查詢。在本例中,因為有3個city物件就導致了4次SQL查詢:

注:這裡的SQL語句是直接從Django的logger:‘django.db.backends’輸出出來的

如果我們使用select_related()函式:

就只有一次SQL查詢,顯然大大減少了SQL查詢的次數:

這裡我們可以看到,Django使用了INNER JOIN來獲得省份的資訊。順便一提這條SQL查詢得到的結果如下:

 

使用方法

函式支援如下三種用法:
*fields 引數

select_related() 接受可變長引數,每個引數是需要獲取的外來鍵(父表的內容)的欄位名,以及外來鍵的外來鍵的欄位名、外來鍵的外來鍵的外來鍵…。若要選擇外來鍵的外來鍵需要使用兩個下劃線“__”來連線。

例如我們要獲得張三的現居省份,可以用如下方式:

觸發的SQL查詢如下:

可以看到,Django使用了2次 INNER JOIN 來完成請求,獲得了city表和province表的內容並新增到結果表的相應列,這樣在呼叫 zhangs.living的時候也不必再次進行SQL查詢。

然而,未指定的外來鍵則不會被新增到結果中。這時候如果需要獲取張三的故鄉就會進行SQL查詢了:

同時,如果不指定外來鍵,就會進行兩次查詢。如果深度更深,查詢的次數更多。

值得一提的是,從Django 1.7開始,select_related()函式的作用方式改變了。在本例中,如果要同時獲得張三的故鄉和現居地的省份,在1.7以前你只能這樣做:

但是1.7及以上版本,你可以像和queryset的其他函式一樣進行鏈式操作:

如果你在1.7以下版本這樣做了,你只會獲得最後一個操作的結果,在本例中就是隻有現居地而沒有故鄉。在你列印故鄉省份的時候就會造成兩次SQL查詢。

depth 引數

select_related() 接受depth引數,depth引數可以確定select_related的深度。Django會遞迴遍歷指定深度內的所有的OneToOneField和ForeignKey。以本例說明:

d=1  相當於 select_related(‘hometown’,’living’)

d=2  相當於 select_related(‘hometown__province’,’living__province’)

無引數

select_related() 也可以不加引數,這樣表示要求Django儘可能深的select_related。例如:zhangs = Person.objects.select_related().get(firstname=u”張”,lastname=u”三”)。但要注意兩點:

  1. Django本身內建一個上限,對於特別複雜的表關係,Django可能在你不知道的某處跳出遞迴,從而與你想的做法不一樣。具體限制是怎麼工作的我表示不清楚。
  2. Django並不知道你實際要用的欄位有哪些,所以會把所有的欄位都抓進來,從而會造成不必要的浪費而影響效能。

 

小結

  1. select_related主要針一對一和多對一關係進行優化。
  2. select_related使用SQL的JOIN語句進行優化,通過減少SQL查詢的次數來進行優化、提高效能。
  3. 可以通過可變長引數指定需要select_related的欄位名。也可以通過使用雙下劃線“__”連線欄位名來實現指定的遞迴查詢。沒有指定的欄位不會快取,沒有指定的深度不會快取,如果要訪問的話Django會再次進行SQL查詢。
  4. 也可以通過depth引數指定遞迴的深度,Django會自動快取指定深度內所有的欄位。如果要訪問指定深度外的欄位,Django會再次進行SQL查詢。
  5. 也接受無引數的呼叫,Django會盡可能深的遞迴查詢所有的欄位。但注意有Django遞迴的限制和效能的浪費。
  6. Django >= 1.7,鏈式呼叫的select_related相當於使用可變長引數。Django < 1.7,鏈式呼叫會導致前邊的select_related失效,只保留最後一個。

相關文章