SQL效能優化的祕訣,快來圍觀,乾貨!

藍天下的智者發表於2021-01-05

前言

資料庫SQL優化不管在傳統公司還是網際網路公司都非常重視,很多時候SQL的好壞直接影響請求的響應時間。

話不多說,直接上乾貨!

 

-     以下是參考各種資料和在實踐中總結的SQL 語句效能優化策略   -

 

1、對查詢進行優化,應儘量避免全表掃描,首先應考慮在where及order by涉及的列上建立索引。

 

2、應儘量避免在where子句中對欄位進行null值判斷,建立表時NULL是預設值,但大多數時候應該使用NOT NULL,或者使用一個特殊的值,如0,-1作為預設值。

 

3、應儘量避免在where子句中使用!=或<>操作符,MySQL只有對以下操作符才使用索引:<,<=,=,>,>=,BETWEEN,IN,以及某些時候的LIKE。

 

4、應儘量避免在where子句中使用or來連線條件,否則將導致引擎放棄使用索引而進行全表掃描,可以使用UNION合併查詢:select id from t where num=10 union all select id from t where num=20。

 

5、in和not in也要慎用,否則會導致全表掃描,對於連續的數值,能用between就不要用in了:Select id from t where num between 1 and 3。

 

6、下面的查詢也將導致全表掃描:select id from t where name like‘%abc%’或者select id from t where name like‘%abc’若要提高效率,可以考慮全文檢索。而select id from t where name like‘abc%’才用到索引。

 

7、如果在where子句中使用引數,也會導致全表掃描。

 

8、應儘量避免在where子句中對欄位進行表示式操作,應儘量避免在where子句中對欄位進行函式操作。

 

9、很多時候用exists代替in是一個好的選擇:select num from a where num in(select num from b)。用下面的語句替換:select num from a where exists(select 1 from b where num=a.num)。

 

10、索引固然可以提高相應的select的效率,但同時也降低了insert及update的效率,因為insert或update時有可能會重建索引,所以怎樣建索引需要慎重考慮,視具體情況而定。一個表的索引數最好不要超過6個,若太多則應考慮一些不常使用到的列上建的索引是否有必要。

 

11、應儘可能的避免更新clustered索引資料列, 因為clustered索引資料列的順序就是表記錄的物理儲存順序,一旦該列值改變將導致整個表記錄的順序的調整,會耗費相當大的資源。若應用系統需要頻繁更新clustered索引資料列,那麼需要考慮是否應將該索引建為clustered索引。

 

12、儘量使用數字型欄位,若只含數值資訊的欄位儘量不要設計為字元型,這會降低查詢和連線的效能,並會增加儲存開銷。

 

13、儘可能的使用varchar/nvarchar代替char/nchar,因為首先變長欄位儲存空間小,可以節省儲存空間,其次對於查詢來說,在一個相對較小的欄位內搜尋效率顯然要高些。

 

14、最好不要使用”“返回所有:select from t ,用具體的欄位列表代替“*”,不要返回用不到的任何欄位。

 

15、儘量避免向客戶端返回大資料量,若資料量過大,應該考慮相應需求是否合理。

 

16、使用表的別名(Alias):當在SQL語句中連線多個表時,請使用表的別名並把別名字首於每個Column上。這樣一來,就可以減少解析的時間並減少那些由Column歧義引起的語法錯誤。

 

17、使用“臨時表”暫存中間結果 :

 

簡化SQL語句的重要方法就是採用臨時表暫存中間結果,但是臨時表的好處遠遠不止這些,將臨時結果暫存在臨時表,後面的查詢就在tempdb中了,這可以避免程式中多次掃描主表,也大大減少了程式執行中“共享鎖”阻塞“更新鎖”,減少了阻塞,提高了併發效能。

 

18、一些SQL查詢語句應加上nolock,讀、寫是會相互阻塞的,為了提高併發效能,對於一些查詢,可以加上nolock,這樣讀的時候可以允許寫,但缺點是可能讀到未提交的髒資料。

 

使用nolock有3條原則:

 

  • 查詢的結果用於“插、刪、改”的不能加nolock;

  • 查詢的表屬於頻繁發生頁分裂的,慎用nolock ;

  • 使用臨時表一樣可以儲存“資料前影”,起到類似Oracle的undo表空間的功能,能採用臨時表提高併發效能的,不要用nolock。

 

19、常見的簡化規則如下:

 

不要有超過5個以上的表連線(JOIN),考慮使用臨時表或表變數存放中間結果。少用子查詢,檢視巢狀不要過深,一般檢視巢狀不要超過2個為宜。

 

20、將需要查詢的結果預先計算好放在表中,查詢的時候再Select。這在SQL7.0以前是最重要的手段,例如醫院的住院費計算。

 

21、用OR的字句可以分解成多個查詢,並且通過UNION 連線多個查詢。他們的速度只同是否使用索引有關,如果查詢需要用到聯合索引,用UNION all執行的效率更高。多個OR的字句沒有用到索引,改寫成UNION的形式再試圖與索引匹配。一個關鍵的問題是否用到索引。

 

22、在IN後面值的列表中,將出現最頻繁的值放在最前面,出現得最少的放在最後面,減少判斷的次數。

 

23、儘量將資料的處理工作放在伺服器上,減少網路的開銷,如使用儲存過程。

 

儲存過程是編譯好、優化過、並且被組織到一個執行規劃裡、且儲存在資料庫中的SQL語句,是控制流語言的集合,速度當然快。反覆執行的動態SQL,可以使用臨時儲存過程,該過程(臨時表)被放在Tempdb中。

 

24、當伺服器的記憶體夠多時,配製執行緒數量 = 最大連線數+5,這樣能發揮最大的效率;否則使用 配製執行緒數量<最大連線數啟用SQL SERVER的執行緒池來解決,如果還是數量 = 最大連線數+5,嚴重的損害伺服器的效能。

 

25、查詢的關聯同寫的順序 :

 

 

select a.personMemberID, * from chineseresume a,personmember b where personMemberID = b.referenceid and a.personMemberID = ‘JCNPRH39681’ (A = B ,B = ‘號碼’) 

 

select a.personMemberID, * from chineseresume a,personmember b where a.personMemberID = b.referenceid and a.personMemberID = ‘JCNPRH39681’ and b.referenceid = ‘JCNPRH39681’ (A = B ,B = ‘號碼’, A = ‘號碼’) 

 

select a.personMemberID, * from chineseresume a,personmember b where b.referenceid = ‘JCNPRH39681’ and a.personMemberID = ‘JCNPRH39681’ (B = ‘號碼’, A = ‘號碼’)

 

26、儘量使用exists代替select count(1)來判斷是否存在記錄,count函式只有在統計表中所有行數時使用,而且count(1)比count(*)更有效率。

 

27、儘量使用“>=”,不要使用“>”。

 

28、索引的使用規範:

 

  • 索引的建立要與應用結合考慮,建議大的OLTP表不要超過6個索引;

  • 儘可能的使用索引欄位作為查詢條件,尤其是聚簇索引,必要時可以通過index index_name來強制指定索引;

  • 避免對大表查詢時進行table scan,必要時考慮新建索引;

  • 在使用索引欄位作為條件時,如果該索引是聯合索引,那麼必須使用到該索引中的第一個欄位作為條件時才能保證系統使用該索引,否則該索引將不會被使用;

  • 要注意索引的維護,週期性重建索引,重新編譯儲存過程。  

 

 

29、下列SQL條件語句中的列都建有恰當的索引,但執行速度卻非常慢: 

 

 

SELECT * FROM record WHERE substrINg(card_no,1,4)=’5378’ (13秒) 

 

SELECT * FROM record WHERE amount/30< 1000 (11秒) 

 

SELECT * FROM record WHERE convert(char(10),date,112)=’19991201’ (10秒) 

 

分析: 

WHERE子句中對列的任何操作結果都是在SQL執行時逐列計算得到的,因此它不得不進行表搜尋,而沒有使用該列上面的索引。

 

 

如果這些結果在查詢編譯時就能得到,那麼就可以被SQL優化器優化,使用索引,避免表搜尋,因此將SQL重寫成下面這樣: 

 

 

SELECT * FROM record WHERE card_no like ‘5378%’ (< 1秒) 

 

SELECT * FROM record WHERE amount< 1000*30 (< 1秒) 

 

SELECT * FROM record WHERE date= ‘1999/12/01’ (< 1秒)

 

30、當有一批處理的插入或更新時,用批量插入或批量更新,絕不會一條條記錄的去更新。

 

31、在所有的儲存過程中,能夠用SQL語句的,我絕不會用迴圈去實現。

例如:列出上個月的每一天,我會用connect by去遞迴查詢一下,絕不會去用迴圈從上個月第一天到最後一天。

 

32、選擇最有效率的表名順序(只在基於規則的優化器中有效): 

Oracle的解析器按照從右到左的順序處理FROM子句中的表名,FROM子句中寫在最後的表(基礎表 driving table)將被最先處理,在FROM子句中包含多個表的情況下,你必須選擇記錄條數最少的表作為基礎表。

 

如果有3個以上的表連線查詢,那就需要選擇交叉表(intersection table)作為基礎表,交叉表是指那個被其他表所引用的表。

 

33、提高GROUP BY語句的效率,可以通過將不需要的記錄在GROUP BY之前過濾掉。下面兩個查詢返回相同結果,但第二個明顯就快了許多。 

 

低效:

 

SELECT JOB , AVG(SAL) 

FROM EMP 

GROUP BY JOB 

HAVING JOB =’PRESIDENT’ 

OR JOB =’MANAGER’ 

 

高效: 

 

SELECT JOB , AVG(SAL) 

FROM EMP 

WHERE JOB =’PRESIDENT’ 

OR JOB =’MANAGER’ 

GROUP BY JOB

 

34、SQL語句用大寫,因為Oracle總是先解析SQL語句,把小寫的字母轉換成大寫的再執行。

 

35、別名的使用,別名是大型資料庫的應用技巧,就是表名、列名在查詢中以一個字母為別名,查詢速度要比建連線錶快1.5倍。

 

36、避免死鎖,在你的儲存過程和觸發器中訪問同一個表時總是以相同的順序;事務應經可能地縮短,在一個事務中應儘可能減少涉及到的資料量;永遠不要在事務中等待使用者輸入。

 

37、避免使用臨時表,除非卻有需要,否則應儘量避免使用臨時表,相反,可以使用表變數代替;大多數時候(99%),表變數駐紮在記憶體中,因此速度比臨時表更快,臨時表駐紮在TempDb資料庫中,因此臨時表上的操作需要跨資料庫通訊,速度自然慢。

 

38、最好不要使用觸發器:

 

  • 觸發一個觸發器,執行一個觸發器事件本身就是一個耗費資源的過程;

  • 如果能夠使用約束實現的,儘量不要使用觸發器;

  • 不要為不同的觸發事件(Insert,Update和Delete)使用相同的觸發器;

  • 不要在觸發器中使用事務型程式碼。

 

39、索引建立規則: 

 

  • 表的主鍵、外來鍵必須有索引; 

  • 資料量超過300的表應該有索引; 

  • 經常與其他表進行連線的表,在連線欄位上應該建立索引; 

  • 經常出現在Where子句中的欄位,特別是大表的欄位,應該建立索引; 

  • 索引應該建在選擇性高的欄位上; 

  • 索引應該建在小欄位上,對於大的文字欄位甚至超長欄位,不要建索引; 

  • 複合索引的建立需要進行仔細分析,儘量考慮用單欄位索引代替; 

  • 正確選擇複合索引中的主列欄位,一般是選擇性較好的欄位; 

  • 複合索引的幾個欄位是否經常同時以AND方式出現在Where子句中?單欄位查詢是否極少甚至沒有?如果是,則可以建立複合索引;否則考慮單欄位索引; 

  • 如果複合索引中包含的欄位經常單獨出現在Where子句中,則分解為多個單欄位索引; 

  • 如果複合索引所包含的欄位超過3個,那麼仔細考慮其必要性,考慮減少複合的欄位; 

  • 如果既有單欄位索引,又有這幾個欄位上的複合索引,一般可以刪除複合索引; 

  • 頻繁進行資料操作的表,不要建立太多的索引; 

  • 刪除無用的索引,避免對執行計劃造成負面影響; 

  • 表上建立的每個索引都會增加儲存開銷,索引對於插入、刪除、更新操作也會增加處理上的開銷。另外,過多的複合索引,在有單欄位索引的情況下,一般都是沒有存在價值的;相反,還會降低資料增加刪除時的效能,特別是對頻繁更新的表來說,負面影響更大。 

  • 儘量不要對資料庫中某個含有大量重複的值的欄位建立索引。

 

40、MySQL查詢優化總結:

 

使用慢查詢日誌去發現慢查詢,使用執行計劃去判斷查詢是否正常執行,總是去測試你的查詢看看是否他們執行在最佳狀態下。

 

久而久之效能總會變化,避免在整個表上使用count(*),它可能鎖住整張表,使查詢保持一致以便後續相似的查詢可以使用查詢快取,在適當的情形下使用GROUP BY而不是DISTINCT,在WHERE、GROUP BY和ORDER BY子句中使用有索引的列,保持索引簡單,不在多個索引中包含同一個列。

 

有時候MySQL會使用錯誤的索引,對於這種情況使用USE INDEX,檢查使用SQL_MODE=STRICT的問題,對於記錄數小於5的索引欄位,在UNION的時候使用LIMIT不是是用OR。 

 

為了避免在更新前SELECT,使用INSERT ON DUPLICATE KEY或者INSERT IGNORE,不要用UPDATE去實現,不要使用MAX,使用索引欄位和ORDER BY子句,LIMIT M,N實際上可以減緩查詢在某些情況下,有節制地使用,在WHERE子句中使用UNION代替子查詢,在重新啟動的MySQL,記得來溫暖你的資料庫,以確保資料在記憶體和查詢速度快,考慮持久連線,而不是多個連線,以減少開銷。

 

基準查詢,包括使用伺服器上的負載,有時一個簡單的查詢可以影響其他查詢,當負載增加在伺服器上,使用SHOW PROCESSLIST檢視慢的和有問題的查詢,在開發環境中產生的映象資料中測試的所有可疑的查詢。

 

41、MySQL備份過程:

 

  • 從二級複製伺服器上進行備份;

  • 在進行備份期間停止複製,以避免在資料依賴和外來鍵約束上出現不一致;

  • 徹底停止MySQL,從資料庫檔案進行備份;

  • 如果使用MySQL dump進行備份,請同時備份二進位制日誌檔案 – 確保複製沒有中斷;

  • 不要信任LVM快照,這很可能產生資料不一致,將來會給你帶來麻煩;

  • 為了更容易進行單表恢復,以表為單位匯出資料——如果資料是與其他表隔離的。 

  • 當使用mysqldump時請使用–opt;

  • 在備份之前檢查和優化表;

  • 為了更快的進行匯入,在匯入時臨時禁用外來鍵約束。;

  • 為了更快的進行匯入,在匯入時臨時禁用唯一性檢測;

  • 在每一次備份後計算資料庫,表以及索引的尺寸,以便更夠監控資料尺寸的增長;

  • 通過自動排程指令碼監控複製例項的錯誤和延遲;

  • 定期執行備份。

 

42、查詢緩衝並不自動處理空格,因此,在寫SQL語句時,應儘量減少空格的使用,尤其是在SQL首和尾的空格(因為查詢緩衝並不自動擷取首尾空格)。

 

43、member用mid做標準進行分表方便查詢麼?一般的業務需求中基本上都是以username為查詢依據,正常應當是username做hash取模來分表。

 

而分表的話MySQL的partition功能就是幹這個的,對程式碼是透明的;在程式碼層面去實現貌似是不合理的。

 

44、我們應該為資料庫裡的每張表都設定一個ID做為其主鍵,而且最好的是一個INT型的(推薦使用UNSIGNED),並設定上自動增加的AUTO_INCREMENT標誌。

 

45、在所有的儲存過程和觸發器的開始處設定SET NOCOUNT ON,在結束時設定SET NOCOUNT OFF。無需在執行儲存過程和觸發器的每個語句後向客戶端傳送DONE_IN_PROC訊息。

 

46、MySQL查詢可以啟用高速查詢快取。這是提高資料庫效能的有效MySQL優化方法之一。當同一個查詢被執行多次時,從快取中提取資料和直接從資料庫中返回資料快很多。

 

47、EXPLAIN SELECT查詢用來跟蹤檢視效果:

 

使用EXPLAIN關鍵字可以讓你知道MySQL是如何處理你的SQL語句的。這可以幫你分析你的查詢語句或是表結構的效能瓶頸。EXPLAIN的查詢結果還會告訴你你的索引主鍵被如何利用的,你的資料表是如何被搜尋和排序的。

 

48、當只要一行資料時使用LIMIT 1 :

 

當你查詢表的有些時候,你已經知道結果只會有一條結果,但因為你可能需要去fetch遊標,或是你也許會去檢查返回的記錄數。

 

在這種情況下,加上LIMIT 1可以增加效能。這樣一來,MySQL資料庫引擎會在找到一條資料後停止搜尋,而不是繼續往後查少下一條符合記錄的資料。

 

49、選擇表合適儲存引擎: 

 

  • myisam:應用時以讀和插入操作為主,只有少量的更新和刪除,並且對事務的完整性,併發性要求不是很高的。 

  • InnoDB:事務處理,以及併發條件下要求資料的一致性。除了插入和查詢外,包括很多的更新和刪除。(InnoDB有效地降低刪除和更新導致的鎖定)。

    對於支援事務的InnoDB型別的表來說,影響速度的主要原因是AUTOCOMMIT預設設定是開啟的,而且程式沒有顯式呼叫BEGIN 開始事務,導致每插入一條都自動提交,嚴重影響了速度。可以在執行SQL前呼叫begin,多條SQL形成一個事物(即使autocommit開啟也可以),將大大提高效能。

 

50、優化表的資料型別,選擇合適的資料型別: 

 

原則:更小通常更好,簡單就好,所有欄位都得有預設值,儘量避免null。 

 

例如:資料庫表設計時候更小的佔磁碟空間儘可能使用更小的整數型別。(mediumint就比int更合適) 

 

比如時間欄位:datetime和timestamp,datetime佔用8個位元組,而timestamp佔用4個位元組,只用了一半,而timestamp表示的範圍是1970—2037適合做更新時間 

 

MySQL可以很好的支援大資料量的存取,但是一般說來,資料庫中的表越小,在它上面執行的查詢也就會越快。 

 

因此,在建立表的時候,為了獲得更好的效能,我們可以將表中欄位的寬度設得儘可能小。

 

例如:在定義郵政編碼這個欄位時,如果將其設定為CHAR(255),顯然給資料庫增加了不必要的空間。甚至使用VARCHAR這種型別也是多餘的,因為CHAR(6)就可以很好的完成任務了。

 

同樣的,如果可以的話,我們應該使用MEDIUMINT而不是BIGIN來定義整型欄位,應該儘量把欄位設定為NOT NULL,這樣在將來執行查詢的時候,資料庫不用去比較NULL值。 

 

對於某些文字欄位,例如“省份”或者“性別”,我們可以將它們定義為ENUM型別。因為在MySQL中,ENUM型別被當作數值型資料來處理,而數值型資料被處理起來的速度要比文字型別快得多。這樣,我們又可以提高資料庫的效能。

 

51、字串資料型別:char,varchar,text選擇區別。

 

52、任何對列的操作都將導致表掃描,它包括資料庫函式、計算表示式等等,查詢時要儘可能將操作移至等號右邊。

 

後續更多優化sql,持續更新中,敬請期待... ...

相關文章