mysql之 OPTIMIZE TABLE整理碎片

張衝andy發表於2018-08-27

來看看手冊中關於 OPTIMIZE 的描述:

OPTIMIZE [LOCAL | NO_WRITE_TO_BINLOG] TABLE tbl_name [, tbl_name] ...

如果您已經刪除了表的一大部分,或者如果您已經對含有可變長度行的表(含有VARCHAR, BLOB或TEXT列的表)進行了很多更改,則應使用
OPTIMIZE TABLE。被刪除的記錄被保持在連結清單中,後續的INSERT操作會重新使用舊的記錄位置。您可以使用OPTIMIZE TABLE來重新
利用未使用的空間,並整理資料檔案的碎片。

在多數的設定中,您根本不需要執行OPTIMIZE TABLE。即使您對可變長度的行進行了大量的更新,您也不需要經常執行,每週一次或每月一次
即可,只對特定的表執行。

OPTIMIZE TABLE只對MyISAM, BDB和InnoDB表起作用。

注意,在OPTIMIZE TABLE執行過程中,MySQL會鎖定表。


原始資料

1,資料量

mysql> select count(*) as total from test_history; 
+---------+ 
| total | 
+---------+ 
| 1187096 | //總共有118萬多條資料 
+---------+ 
1 row in set (0.04 sec)

2,存放在硬碟中的表檔案大小

[root@ test1]# ls |grep visit |xargs -i du {} 
382020 test_history.MYD //資料檔案佔了380M 
127116 test_history.MYI //索引檔案佔了127M 
12 test_history.frm //結構檔案佔了12K

3,檢視一下索引資訊

mysql> show index from test_history from test1; //檢視一下該表的索引資訊 
+------------------+------------+-------------------+--------------+---------------+-----------+-------------+----------+--------+------+------------+---------+ 
| Table | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | 
+------------------+------------+-------------------+--------------+---------------+-----------+-------------+----------+--------+------+------------+---------+ 
| test_history | 0 | PRIMARY | 1 | id | A | 1187096 | NULL | NULL | | BTREE | | 
| test_history | 1 | ad_code | 1 | ad_code | A | 46 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | unique_id | 1 | unique_id | A | 1187096 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | ad_code_ind | 1 | ad_code | A | 46 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | from_page_url_ind | 1 | from_page_url | A | 30438 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | ip_ind | 1 | ip | A | 593548 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | port_ind | 1 | port | A | 65949 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | session_id_ind | 1 | session_id | A | 1187096 | NULL | NULL | YES | BTREE | | 
+------------------+------------+-------------------+--------------+---------------+-----------+-------------+----------+--------+------+------------+---------+ 
8 rows in set (0.28 sec)

索引資訊中的列的資訊說明。

Table :表的名稱。
Non_unique:如果索引不能包括重複詞,則為0。如果可以,則為1。
Key_name:索引的名稱。
Seq_in_index:索引中的列序列號,從1開始。
Column_name:列名稱。
Collation:列以什麼方式儲存在索引中。在MySQLSHOW INDEX語法中,有值’A’(升序)或NULL(無分類)。
Cardinality:索引中唯一值的數目的估計值。透過執行ANALYZE TABLE或myisamchk -a可以更新。基數根據被儲存為整數的統計資料來計數,所以即使對於小型表,該值也沒有必要是精確的。基數越大,當進行聯合時,MySQL使用該索引的機會就越大。
Sub_part:如果列只是被部分地編入索引,則為被編入索引的字元的數目。如果整列被編入索引,則為NULL。
Packed:指示關鍵字如何被壓縮。如果沒有被壓縮,則為NULL。
Null:如果列含有NULL,則含有YES。如果沒有,則為空。
Index_type:儲存索引資料結構方法(BTREE, FULLTEXT, HASH, RTREE)

二,刪除一半資料

mysql> delete from test_history where id>598000; //刪除一半資料 
Query OK, 589096 rows affected (4 min 28.06 sec)

[root@ test1]# ls |grep visit |xargs -i du {} //相對應的MYD,MYI檔案大小沒有變化 
382020 test_history.MYD 
127116 test_history.MYI 
12 test_history.frm

按常規思想來說,如果在資料庫中刪除了一半資料後,相對應的.MYD,.MYI檔案也應當變為之前的一半。但是刪除一半資料後,.MYD.MYI盡然連1KB都沒有減少,這是多麼的可怕啊。

我們在來看一看,索引資訊
mysql> show index from test_history; 
+------------------+------------+-------------------+--------------+---------------+-----------+-------------+----------+--------+------+------------+---------+ 
| Table | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | 
+------------------+------------+-------------------+--------------+---------------+-----------+-------------+----------+--------+------+------------+---------+ 
| test_history | 0 | PRIMARY | 1 | id | A | 598000 | NULL | NULL | | BTREE | | 
| test_history | 1 | ad_code | 1 | ad_code | A | 23 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | unique_id | 1 | unique_id | A | 598000 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | ad_code_ind | 1 | ad_code | A | 23 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | from_page_url_ind | 1 | from_page_url | A | 15333 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | ip_ind | 1 | ip | A | 299000 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | port_ind | 1 | port | A | 33222 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | session_id_ind | 1 | session_id | A | 598000 | NULL | NULL | YES | BTREE | | 
+------------------+------------+-------------------+--------------+---------------+-----------+-------------+----------+--------+------+------------+---------+ 
8 rows in set (0.00 sec)

對比一下,這次索引查詢和上次索引查詢,裡面的資料資訊基本上是上次一次的一本,這點還是合乎常理。


三,用optimize table來最佳化一下


show table status like 'XXX'\G;

data_free選項代表資料碎片。 
針對MySQL的不同資料庫儲存引擎,在optimize使用清除碎片,回收閒置的資料庫空間,把分散儲存(fragmented)的資料和索引重新挪到一起(defragmentation),對I/O速度有好處。


mysql> optimize table test_history; //刪除資料後的最佳化 
+------------------------+----------+----------+----------+ 
| Table | Op | Msg_type | Msg_text | 
+------------------------+----------+----------+----------+ 
| test1.test_history | optimize | status | OK | 
+------------------------+----------+----------+----------+ 
1 row in set (1 min 21.05 sec)

1,檢視一下.MYD,.MYI檔案的大小

[root@ test1]# ls |grep visit |xargs -i du {} 
182080 test_history.MYD //資料檔案差不多為最佳化前的一半 
66024 test_history.MYI //索引檔案也一樣,差不多是最佳化前的一半 
12 test_history.frm

2,檢視一下索引資訊
mysql> show index from test_history; 
+------------------+------------+-------------------+--------------+---------------+-----------+-------------+----------+--------+------+------------+---------+ 
| Table | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | 
+------------------+------------+-------------------+--------------+---------------+-----------+-------------+----------+--------+------+------------+---------+ 
| test_history | 0 | PRIMARY | 1 | id | A | 598000 | NULL | NULL | | BTREE | | 
| test_history | 1 | ad_code | 1 | ad_code | A | 42 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | unique_id | 1 | unique_id | A | 598000 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | ad_code_ind | 1 | ad_code | A | 42 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | from_page_url_ind | 1 | from_page_url | A | 24916 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | ip_ind | 1 | ip | A | 598000 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | port_ind | 1 | port | A | 59800 | NULL | NULL | YES | BTREE | | 
| test_history | 1 | session_id_ind | 1 | session_id | A | 598000 | NULL | NULL | YES | BTREE | | 
+------------------+------------+-------------------+--------------+---------------+-----------+-------------+----------+--------+------+------------+---------+ 
8 rows in set (0.00 sec)

從以上資料我們可以得出,ad_code,ad_code_ind,from_page_url_ind等索引機會差不多都提高了85%,這樣效率提高了好多。

四,小結

結合mysql官方網站的資訊,個人是這樣理解的。當你刪除資料時,mysql並不會回收,被已刪除資料的佔據的儲存空間,以及索引位。而是空在那裡,而是等待新的資料來彌補這個空缺,這樣就有一個缺少,如果一時半會,沒有資料來填補這個空缺,那這樣就太浪費資源了。所以對於寫比較頻煩的表,要定期進行optimize,一個月一次,看實際情況而定了。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31383567/viewspace-2212928/,如需轉載,請註明出處,否則將追究法律責任。

相關文章