MySQL效能最佳化的最佳20+條經驗

hunterjoy發表於2015-06-10
今天,資料庫的操作越來越成為整個應用的效能瓶頸了,這點對於Web應用尤其明顯。關於資料庫的效能,這並不只是DBA才需要擔心的事,而這更是我 們程式設計師需要去關注的事情。當我們去設計資料庫表結構,對運算元據庫時(尤其是查表時的SQL語句),我們都需要注意資料操作的效能。這裡,我們不會講過 多的SQL語句的最佳化,而只是針對MySQL這一Web應用最多的資料庫。希望下面的這些最佳化技巧對你有用。

1. 為查詢快取最佳化你的查詢
大多數的MySQL伺服器都開啟了查詢快取。這是提高性最有效的方法之一,而且這是被MySQL的資料庫引擎處理的。當有很多相同的查詢被執行了多次的時候,這些查詢結果會被放到一個快取中,這樣,後續的相同的查詢就不用操作表而直接訪問快取結果了。

這裡最主要的問題是,對於程式設計師來說,這個事情是很容易被忽略的。因為,我們某些查詢語句會讓MySQL不使用快取。請看下面的示例:
  1. // 查詢快取不開啟
  2. $r = mysql_query("SELECT username FROM user WHERE signup_date >= CURDATE()");
  3.  // 開啟查詢快取
  4. $today = date("Y-m-d");
  5. $r = mysql_query("SELECT username FROM user WHERE signup_date >= '$today'");
複製程式碼
上面兩條SQL語句的差別就是 CURDATE() ,MySQL的查詢快取對這個函式不起作用。所以,像 NOW() 和 RAND() 或是其它的諸如此類的SQL函式都不會開啟查詢快取,因為這些函式的返回是會不定的易變的。所以,你所需要的就是用一個變數來代替MySQL的函式,從而 開啟快取。

2. EXPLAIN 你的 SELECT 查詢

使用 EXPLAIN 關鍵字可以讓你知道MySQL是如何處理你的SQL語句的。這可以幫你分析你的查詢語句或是表結構的效能瓶頸。

EXPLAIN 的查詢結果還會告訴你你的索引主鍵被如何利用的,你的資料表是如何被搜尋和排序的……等等,等等。

挑一個你的SELECT語句(推薦挑選那個最複雜的,有多表聯接的),把關鍵字EXPLAIN加到前面。你可以使用phpmyadmin來做這個事。然後,你會看到一張表格。下面的這個示例中,我們忘記加上了group_id索引,並且有表聯接:

當我們為 group_id 欄位加上索引後:

我們可以看到,前一個結果顯示搜尋了 7883 行,而後一個只是搜尋了兩個表的 9 和 16 行。檢視rows列可以讓我們找到潛在的效能問題。

3. 當只要一行資料時使用 LIMIT 1

當你查詢表的有些時候,你已經知道結果只會有一條結果,但因為你可能需要去fetch遊標,或是你也許會去檢查返回的記錄數。

在這種情況下,加上 LIMIT 1 可以增加效能。這樣一樣,MySQL資料庫引擎會在找到一條資料後停止搜尋,而不是繼續往後查少下一條符合記錄的資料。

下面的示例,只是為了找一下是否有“中國”的使用者,很明顯,後面的會比前面的更有效率。(請注意,第一條中是Select *,第二條是Select 1)
  1. // 沒有效率的:
  2. $r = mysql_query("SELECT * FROM user WHERE country = 'China'");
  3.  if (mysql_num_rows($r) > 0) {
  4.     // ...
  5.  }
  6.  // 有效率的:
  7. $r = mysql_query("SELECT 1 FROM user WHERE country = 'China' LIMIT 1");
  8.  if (mysql_num_rows($r) > 0) {
  9.     // ...
  10.  }
複製程式碼
4. 為搜尋欄位建索引

索引並不一定就是給主鍵或是唯一的欄位。如果在你的表中,有某個欄位你總要會經常用來做搜尋,那麼,請為其建立索引吧。

從上圖你可以看到那個搜尋字串 “last_name LIKE ‘a%’”,一個是建了索引,一個是沒有索引,效能差了4倍左右。

另外,你應該也需要知道什麼樣的搜尋是不能使用正常的索引的。例如,當你需要在一篇大的文章中搜尋一個詞時,如: “WHERE post_content LIKE ‘%apple%’”,索引可能是沒有意義的。你可能需要使用MySQL全文索引 或是自己做一個索引(比如說:搜尋關鍵詞或是Tag什麼的)

5. 在Join表的時候使用相當型別的例,並將其索引

如果你的應用程式有很多 JOIN 查詢,你應該確認兩個表中Join的欄位是被建過索引的。這樣,MySQL內部會啟動為你最佳化Join的SQL語句的機制。

而且,這些被用來Join的欄位,應該是相同的型別的。例如:如果你要把 DECIMAL 欄位和一個 INT 欄位Join在一起,MySQL就無法使用它們的索引。對於那些STRING型別,還需要有相同的字符集才行。(兩個表的字符集有可能不一樣)
  1. // 在state中查詢company
  2. $r = mysql_query("SELECT company_name FROM users
  3.     LEFT JOIN companies ON (users.state = companies.state)
  4.     WHERE users.id = $user_id");
  5.  // 兩個 state 欄位應該是被建過索引的,而且應該是相當的型別,相同的字符集。
複製程式碼
6. 千萬不要 ORDER BY RAND()

想打亂返回的資料行?隨機挑一個資料?真不知道誰發明了這種用法,但很多新手很喜歡這樣用。但你確不瞭解這樣做有多麼可怕的效能問題。

如果你真的想把返回的資料行打亂了,你有N種方法可以達到這個目的。這樣使用只讓你的資料庫的效能呈指數級的下降。這裡的問題是:MySQL會不得 不去執行RAND()函式(很耗CPU時間),而且這是為了每一行記錄去記行,然後再對其排序。就算是你用了Limit 1也無濟於事(因為要排序)

下面的示例是隨機挑一條記錄
  1. // 千萬不要這樣做:
  2. $r = mysql_query("SELECT username FROM user ORDER BY RAND() LIMIT 1");
  3.  // 這要會更好:
  4. $r = mysql_query("SELECT count(*) FROM user");
  5. $d = mysql_fetch_row($r);
  6. $rand = mt_rand(0,$d[0] - 1);
  7. $r = mysql_query("SELECT username FROM user LIMIT $rand, 1");
複製程式碼
7. 避免 SELECT *

從資料庫裡讀出越多的資料,那麼查詢就會變得越慢。並且,如果你的資料庫伺服器和WEB伺服器是兩臺獨立的伺服器的話,這還會增加網路傳輸的負載。

所以,你應該養成一個需要什麼就取什麼的好的習慣。
  1. // 不推薦
  2. $r = mysql_query("SELECT * FROM user WHERE user_id = 1");
  3. $d = mysql_fetch_assoc($r);
  4. echo "Welcome {$d['username']}";
  5.  // 推薦
  6. $r = mysql_query("SELECT username FROM user WHERE user_id = 1");
  7. $d = mysql_fetch_assoc($r);
  8. echo "Welcome {$d['username']}";
複製程式碼
8. 永遠為每張表設定一個ID

我們應該為資料庫裡的每張表都設定一個ID做為其主鍵,而且最好的是一個INT型的(推薦使用UNSIGNED),並設定上自動增加的AUTO_INCREMENT標誌。

就算是你 users 表有一個主鍵叫 “email”的欄位,你也別讓它成為主鍵。使用 VARCHAR 型別來當主鍵會使用得效能下降。另外,在你的程式中,你應該使用表的ID來構造你的資料結構。

而且,在MySQL資料引擎下,還有一些操作需要使用主鍵,在這些情況下,主鍵的效能和設定變得非常重要,比如,叢集,分割槽……

在這裡,只有一個情況是例外,那就是“關聯表”的“外來鍵”,也就是說,這個表的主鍵,透過若干個別的表的主鍵構成。我們把這個情況叫做“外來鍵”。比 如:有一個“學生表”有學生的ID,有一個“課程表”有課程ID,那麼,“成績表”就是“關聯表”了,其關聯了學生表和課程表,在成績表中,學生ID和課 程ID叫“外來鍵”其共同組成主鍵。

9. 使用 ENUM 而不是 VARCHAR

ENUM 型別是非常快和緊湊的。在實際上,其儲存的是 TINYINT,但其外表上顯示為字串。這樣一來,用這個欄位來做一些選項列表變得相當的完美。

如果你有一個欄位,比如“性別”,“國家”,“民族”,“狀態”或“部門”,你知道這些欄位的取值是有限而且固定的,那麼,你應該使用 ENUM 而不是 VARCHAR。

MySQL也有一個“建議”(見第十條)告訴你怎麼去重新組織你的表結構。當你有一個 VARCHAR 欄位時,這個建議會告訴你把其改成 ENUM 型別。使用 PROCEDURE ANALYSE() 你可以得到相關的建議。

10. 從 PROCEDURE ANALYSE() 取得建議

PROCEDURE ANALYSE() 會讓 MySQL 幫你去分析你的欄位和其實際的資料,並會給你一些有用的建議。只有表中有實際的資料,這些建議才會變得有用,因為要做一些大的決定是需要有資料作為基礎的。

例如,如果你建立了一個 INT 欄位作為你的主鍵,然而並沒有太多的資料,那麼,PROCEDURE ANALYSE()會建議你把這個欄位的型別改成 MEDIUMINT 。或是你使用了一個 VARCHAR 欄位,因為資料不多,你可能會得到一個讓你把它改成 ENUM 的建議。這些建議,都是可能因為資料不夠多,所以決策做得就不夠準。

在phpmyadmin裡,你可以在檢視錶時,點選 “Propose table structure” 來檢視這些建議

一定要注意,這些只是建議,只有當你的表裡的資料越來越多時,這些建議才會變得準確。一定要記住,你才是最終做決定的人。

11. 儘可能的使用 NOT NULL
除非你有一個很特別的原因去使用 NULL 值,你應該總是讓你的欄位保持 NOT NULL。這看起來好像有點爭議,請往下看。

首先,問問你自己“Empty”和“NULL”有多大的區別(如果是INT,那就是0和NULL)?如果你覺得它們之間沒有什麼區別,那麼你就不要使用NULL。(你知道嗎?在 Oracle 裡,NULL 和 Empty 的字串是一樣的!)

不要以為 NULL 不需要空間,其需要額外的空間,並且,在你進行比較的時候,你的程式會更復雜。 當然,這裡並不是說你就不能使用NULL了,現實情況是很複雜的,依然會有些情況下,你需要使用NULL值。

下面摘自MySQL自己的文件:
  1. NULL columns require additional space in the row to record whether their values are NULL. For MyISAM tables, each NULL column takes one bit extra, rounded up to the nearest byte.”
複製程式碼
12. Prepared Statements

Prepared Statements很像儲存過程,是一種執行在後臺的SQL語句集合,我們可以從使用 prepared statements 獲得很多好處,無論是效能問題還是安全問題。

Prepared Statements 可以檢查一些你繫結好的變數,這樣可以保護你的程式不會受到“SQL隱碼攻擊式”攻擊。當然,你也可以手動地檢查你的這些變數,然而,手動的檢查容易出問題, 而且很經常會被程式設計師忘了。當我們使用一些framework或是ORM的時候,這樣的問題會好一些。

在效能方面,當一個相同的查詢被使用多次的時候,這會為你帶來可觀的效能優勢。你可以給這些Prepared Statements定義一些引數,而MySQL只會解析一次。

雖然最新版本的MySQL在傳輸Prepared Statements是使用二進位制形勢,所以這會使得網路傳輸非常有效率。

當然,也有一些情況下,我們需要避免使用Prepared Statements,因為其不支援查詢快取。但據說版本5.1後支援了。

在PHP中要使用prepared statements,你可以檢視其使用手冊:mysqli 擴充套件 或是使用資料庫抽象層,如: PDO.
  1. // 建立 prepared statement
  2.  if ($stmt = $mysqli->prepare("SELECT username FROM user WHERE state=?")) {
  3.     // 繫結引數
  4.     $stmt->bind_param("s", $state);
  5.     // 執行
  6.     $stmt->execute();
  7.     // 繫結結果
  8.     $stmt->bind_result($username);
  9.     // 移動遊標
  10.     $stmt->fetch();
  11.     printf("%s is from %s\n", $username, $state);
  12.     $stmt->close();
  13.  }
複製程式碼

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/543979/viewspace-1693723/,如需轉載,請註明出處,否則將追究法律責任。

相關文章