【基礎知識】索引--點陣圖索引
轉載自http://www.cnblogs.com/LBSer/p/3322630.html 讀完收穫很多,請允許轉載,非常感謝!
前段時間聽同事分享,偶爾講起Oracle資料庫的點陣圖索引,頓時大感興趣。說來慚愧,在這之前對點陣圖索引一無所知,因此趁此機會寫篇博文介紹下點陣圖索引。
1. 案例
有張表名為table的表,由三列組成,分別是姓名、性別和婚姻狀況,其中性別只有男和女兩項,婚姻狀況由已婚、未婚、離婚這三項,該表共有100w個記錄。現在有這樣的查詢:select * from table where Gender=‘男’ and Marital=“未婚”;
姓名(Name) |
性別(Gender) |
婚姻狀況(Marital) |
張三 |
男 |
已婚 |
李四 |
女 |
已婚 |
王五 |
男 |
未婚 |
趙六 |
女 |
離婚 |
孫七 |
女 |
未婚 |
... |
... |
... |
1)不使用索引
不使用索引時,資料庫只能一行行掃描所有記錄,然後判斷該記錄是否滿足查詢條件。
2)B樹索引
對於性別,可取值的範圍只有'男','女',並且男和女可能各站該表的50%的資料,這時新增B樹索引還是需要取出一半的資料, 因此完全沒有必要。相反,如果某個欄位的取值範圍很廣,幾乎沒有重複,比如身份證號,此時使用B樹索引較為合適。事實上,當取出的行資料佔用表中大部分的資料時,即使新增了B樹索引,資料庫如oracle、mysql也不會使用B樹索引,很有可能還是一行行全部掃描。
2. 點陣圖索引出馬
如果使用者查詢的列的基數非常的小, 即只有的幾個固定值,如性別、婚姻狀況、行政區等等。要為這些基數值比較小的列建索引,就需要建立點陣圖索引。
對於性別這個列,點陣圖索引形成兩個向量,男向量為10100...,向量的每一位表示該行是否是男,如果是則位1,否為0,同理,女向量位01011。
RowId |
1 |
2 |
3 |
4 |
5 |
... |
男 |
1 |
0 |
1 |
0 |
0 |
|
女 |
0 |
1 |
0 |
1 |
1 |
|
對於婚姻狀況這一列,點陣圖索引生成三個向量,已婚為11000...,未婚為00100...,離婚為00010...。
RowId |
1 |
2 |
3 |
4 |
5 |
... |
已婚 |
1 |
1 |
0 |
0 |
0 |
|
未婚 |
0 |
0 |
1 |
0 |
1 |
|
離婚 |
0 |
0 |
0 |
1 |
0 |
|
當我們使用查詢語句“select * from table where Gender=‘男’ and Marital=“未婚”;”的時候 首先取出男向量10100...,然後取出未婚向量00100...,將兩個向量做and操作,這時生成新向量00100...,可以發現第三位為1,表示該表的第三行資料就是我們需要查詢的結果。
RowId |
1 |
2 |
3 |
4 |
5 |
男 |
1 |
0 |
1 |
0 |
0 |
and |
|
|
|
|
|
未婚 |
0 |
0 |
1 |
0 |
1 |
結果 |
0 |
0 |
1 |
0 |
0 |
3.點陣圖索引的適用條件
上面講了,點陣圖索引適合只有幾個固定值的列,如性別、婚姻狀況、行政區等等,而身份證號這種型別不適合用點陣圖索引。
此外,點陣圖索引適合靜態資料,而不適合索引頻繁更新的列。舉個例子,有這樣一個欄位busy,記錄各個機器的繁忙與否,當機器忙碌時,busy為1,當機器不忙碌時,busy為0。
這個時候有人會說使用點陣圖索引,因為busy只有兩個值。好,我們使用點陣圖索引索引busy欄位!假設使用者A使用update更新某個機器的busy值,比如update table set table.busy=1 where rowid=100;,但還沒有commit,而使用者B也使用update更新另一個機器的busy值,update table set table.busy=1 where rowid=12; 這個時候使用者B怎麼也更新不了,需要等待使用者A commit。
原因:使用者A更新了某個機器的busy值為1,會導致所有busy為1的機器的點陣圖向量發生改變,因此資料庫會將busy=1的所有行鎖定,只有commit之後才解鎖。
簡單說來,點陣圖是用位元組8個bit中的每個bit來代表0和1的,這樣佔用儲存就非常小。以這張表為例,假設有100萬的資料,那麼代表“男性”的點陣圖的大小就是100萬Bit。注意,這只是Bit,換算成位元組的話,就是12.5萬Byte,也就是125KB的大小,這個大小是絕對足夠全部裝入記憶體的。點陣圖的關鍵是縮小了儲存空間,以使得記憶體遍歷成為可能。
即便我有足夠大的機器,能夠把所有記錄放入記憶體裡,對bit位的遍歷(判斷0和1)和遍歷一條記錄(比較兩個值)的速度也有非常大的差距。前者有直接的機器指令支援,後者則需要多條指令才能完成,在機器指令集方面就拉開了差距。同時在進行多條件判斷時,位運算也有直接的的機器指令,還支援指令集並行優化,因此綜合起來,點陣圖索引的效率就非常高了。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/30776559/viewspace-2142462/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 索引基礎知識總結索引
- 點陣圖索引(轉載)索引
- Kafka訊息系統基礎知識索引Kafka索引
- iOS 基礎知識學習目錄索引iOS索引
- MySQL 索引知識點總結MySql索引
- Python點陣圖索引學習Python索引
- 索引的知識要點與操作索引
- 點陣圖索引的工作原理 - Richard索引
- MySQL 索引知識大全MySql索引
- MySql 三大知識點——索引、鎖、事務!MySql索引
- Pandas知識點彙總(2)——布林索引索引
- MySQL——索引基礎MySql索引
- mysql基礎_索引MySql索引
- mysql索引基礎MySql索引
- oracle點陣圖索引對DML操作的影響Oracle索引
- mysql索引使用基礎MySql索引
- JavaWeb基礎知識點JavaWeb
- java基礎知識點Java
- MySql 三大知識點,索引、鎖、事務,原理分析MySql索引
- Mysql基礎 --- 索引+事務MySql索引
- Servlet基礎知識點整理Servlet
- Python基礎知識點梳理Python
- Java基礎知識點梳理Java
- JavaScript部分基礎知識點JavaScript
- 關於資料庫索引,必須掌握的知識點資料庫索引
- 【INDEX】Oracle 索引常見知識梳理IndexOracle索引
- 圖形學基礎知識
- NumPy基礎知識圖譜
- 圖解 IP 基礎知識!圖解
- JS-陣列基礎知識3JS陣列
- mysql知識點系列-索引全解密(型別、維護、優化)MySql索引解密型別優化
- MySQL點陣圖索引解決使用者畫像問題MySql索引
- Java基礎知識點總結Java
- Java 基礎面試知識點Java面試
- Java入門基礎知識點Java
- vueX基礎知識點筆記Vue筆記
- ES 基礎知識點總結
- Redis 基礎知識點總結Redis
- Dubbo基礎入門知識點