例項詳解Django的 select_related 和 prefetch_related 函式對 QuerySet 查詢的優化(二)

熊鐸發表於2014-08-05

這是本系列的第二篇,內容是 prefetch_related() 函式的用途、實現途徑、以及使用方法。

本系列的第一篇在這裡

3. prefetch_related()

對於多對多欄位(ManyToManyField)和一對多欄位,可以使用prefetch_related()來進行優化。或許你會說,沒有一個叫OneToManyField的東西啊。實際上 ,ForeignKey就是一個多對一的欄位,而被ForeignKey關聯的欄位就是一對多欄位了。

 

作用和方法

prefetch_related()和select_related()的設計目的很相似,都是為了減少SQL查詢的數量,但是實現的方式不一樣。後者是通過JOIN語句,在SQL查詢內解決問題。但是對於多對多關係,使用SQL語句解決就顯得有些不太明智,因為JOIN得到的表將會很長,會導致SQL語句執行時間的增加和記憶體佔用的增加。若有n個物件,每個物件的多對多欄位對應Mi條,就會生成Σ(n)Mi 行的結果表。

 

prefetch_related()的解決方法是,分別查詢每個表,然後用Python處理他們之間的關係。繼續以上邊的例子進行說明,如果我們要獲得張三所有去過的城市,使用prefetch_related()應該是這麼做:

上述程式碼觸發的SQL查詢如下:

第一條SQL查詢僅僅是獲取張三的Person物件,第二條比較關鍵,它選取關係表QSOptimize_person_visitationperson_id為張三的行,然後和city表內聯(INNER JOIN 也叫等值連線)得到結果表。

顯然張三武漢、廣州、十堰都去過。

又或者,我們要獲得湖北的所有城市名,可以這樣:

觸發的SQL查詢:

得到的表:

我們可以看見,prefetch使用的是 IN 語句實現的。這樣,在QuerySet中的物件數量過多的時候,根據資料庫特性的不同有可能造成效能問題。

 

使用方法

*lookups 引數

prefetch_related()在Django < 1.7 只有這一種用法。和select_related()一樣,prefetch_related()也支援深度查詢,例如要獲得所有姓張的人去過的省:

觸發的SQL:

獲得的結果:

值得一提的是,鏈式prefetch_related會將這些查詢新增起來,就像1.7中的select_related那樣。

 

要注意的是,在使用QuerySet的時候,一旦在鏈式操作中改變了資料庫請求,之前用prefetch_related快取的資料將會被忽略掉。這會導致Django重新請求資料庫來獲得相應的資料,從而造成效能問題。這裡提到的改變資料庫請求指各種filter()、exclude()等等最終會改變SQL程式碼的操作。而all()並不會改變最終的資料庫請求,因此是不會導致重新請求資料庫的。

舉個例子,要獲取所有人訪問過的城市中帶有“市”字的城市,這樣做會導致大量的SQL查詢:

因為資料庫中有4人,導致了2+4次SQL查詢:

詳細分析一下這些請求事件。

眾所周知,QuerySet是lazy的,要用的時候才會去訪問資料庫。執行到第二行Python程式碼時,for迴圈將plist看做iterator,這會觸發資料庫查詢。最初的兩次SQL查詢就是prefetch_related導致的。

雖然已經查詢結果中包含所有所需的city的資訊,但因為在迴圈體中對Person.visitation進行了filter操作,這顯然改變了資料庫請求。因此這些操作會忽略掉之前快取到的資料,重新進行SQL查詢。

 

但是如果有這樣的需求了應該怎麼辦呢?在Django >= 1.7,可以通過下一節的Prefetch物件來實現,如果你的環境是Django < 1.7,可以在Python中完成這部分操作。

Prefetch 物件

在Django >= 1.7,可以用Prefetch物件來控制prefetch_related函式的行為。

注:由於我沒有安裝1.7版本的Django環境,本節內容是參考Django文件寫的,沒有進行實際的測試。

 

Prefetch物件的特徵:

 

  1. 一個Prefetch物件只能指定一項prefetch操作。
  2. Prefetch物件對欄位指定的方式和prefetch_related中的引數相同,都是通過雙下劃線連線的欄位名完成的。
  3. 可以通過 queryset 引數手動指定prefetch使用的QuerySet。
  4. 可以通過 to_attr 引數指定prefetch到的屬性名。
  5. Prefetch物件和字串形式指定的lookups引數可以混用。

 

繼續上面的例子,獲取所有人訪問過的城市中帶有“武”字和“州”的城市:

注:這段程式碼沒有在實際環境中測試過,若有不正確的地方請指正。

順帶一提,Prefetch物件和字串引數可以混用。

None

可以通過傳入一個None來清空之前的prefetch_related。就像這樣:

小結

  1. prefetch_related主要針一對多和多對多關係進行優化。
  2. prefetch_related通過分別獲取各個表的內容,然後用Python處理他們之間的關係來進行優化。
  3. 可以通過可變長引數指定需要select_related的欄位名。指定方式和特徵與select_related是相同的。
  4. 在Django >= 1.7可以通過Prefetch物件來實現複雜查詢,但低版本的Django好像只能自己實現。
  5. 作為prefetch_related的引數,Prefetch物件和字串可以混用。
  6. prefetch_related的鏈式呼叫會將對應的prefetch新增進去,而非替換,似乎沒有基於不同版本上區別。
  7. 可以通過傳入None來清空之前的prefetch_related。

相關文章