雙陣列TRIE樹Double-Array Trie理解引導

明天,今天,此時發表於2020-11-25

原文網址 : https://blog.csdn.net/LearnToPain/article/details/109448563

啟文

	很難懂很難懂
	不知道什麼時候開始，看別人的寫的東西都看不懂了，不知道是自己思維出現問題，還是別人的表達確實存在歧義。一個點存在一個歧義，兩個點歧義就變成4種理解，3點、4點還得了。一點存在歧義就沒得辦法看懂。

double Array trie的實現不過很多年沒更新，似乎都不能下載了，裡面談到幾次論文更新：

Tripple-Array Trie
Double-Array Trie
Suffix Compression-> double-array branches and suffix-spool tail
Double-Array Pool Allocation->G-link

換句話說效果比較好的就是這個DATrie的G-link方法，效果更好的裡面沒提起，不解釋了。

https://linux.thai.net/~thep/datrie/datrie.html這裡面介紹了double-array-trie的方法演進，很久沒更新了不知道有新的改進沒。

https://zhuanlan.zhihu.com/p/185832624這裡漢語版理解double-array-trie的過程，百度百科不用看了看不懂的，就看他的吧！

https://blog.csdn.net/zzran/article/details/8462002 是前面的第3點改進double-array-trie的做法，就是字尾

G-link還沒理解

先理解double-array-trie計算過程，只是計算過程看通了，原理沒懂，還得繼續瞭解。

先構建

詞集：【a,ab,bbc,bc】

根據詞集生成語料:
字符集：【a,b,c】
狀態集：【a,ab,b,bb,bc,bbc】

計算流程是這樣的（python的格式，雖然是兩陣列其實還有其他變數參與）：
初始化：

字符集建立字典：index={a:1,b:2,c:3} #舉例index[c]=3
狀態集也建立字典：state={none:0,a:none,ab:none,b:none,bb:none,bc:none,bbc:none} #none是空，這個字典記錄的狀態的過程狀態值，起始時除了none鍵，其它沒定義值；
定義陣列：base=[0,none,none,none,none,none,none,none] #總共8個元素為啥？比狀態多吧
定義陣列：check=[none,none,none,none,none,none,none,none] #個數和base一樣
`base`是字串去掉最後一個字元剩下的字串。

建立公式如下：
在這裡插入圖片描述

初始化
計算字串a
計算字串ab
計算字串bbc
bbc經過反推，bbc沒有bb的`base`，再推沒有b的`base`,所以要從b開始建立陣列值。
計算字串b

計算字串bb

計算字串bbc
計算字串bc

到此為止構建完成了，構建過程很容易理解，為什麼這麼構建？還要進一步分析。

查詢

驗證公式如下
在這裡插入圖片描述
查詢ab
先查a再查詢ab

ab配對成功。
接下來匹配abc,上接ab查詢：

匹配失敗。

結語

state中的值不能重複，其值對應base陣列中的索引，理解為“佔索引”，base陣列和check陣列的索引是一一對應的。

trie數對英文特別好，因為英文就26個字母，漢字就不同了幾千到幾萬個常用字元，所以用double-array trie，構建後查詢特別快。還必須瞭解的FST共享字首樹，這是lucene用的結構需要了解一下。

這些結構涉及到前沿技術，必須懂！

另：1）前面的計算過程是仿照前面給出的連線中的文章演示翻譯出來的還沒進行驗證；2）這個計算過程為什麼這麼計算還沒弄透，搞透後更新這篇部落格。

後面更新這兩點，或者理解的朋友留言告知，你不說我不說，就沒有網際網路共享的知識，分享還能幫助記憶嗎沒錯吧。

相關文章

雙陣列字典樹(Double Array Trie)
2020-11-18
陣列
雙陣列Trie樹高效構建有向無環圖
2018-07-19
陣列
Trie樹，字典樹
2024-08-17
trie字典樹
2023-09-25
字典樹Trie
2024-11-12
字典樹(Trie)
2024-07-09
【動畫】看動畫輕鬆理解「Trie樹」
2019-01-02
動畫
Trie樹【P3879】 [TJOI2010]閱讀理解
2020-04-05
Trie
2024-10-06
208. 實現 Trie (字首樹)-python
2024-05-06
Python
由簡入繁--Trie樹實戰
2019-03-22
Trie樹：字串頻率統計排序
2021-09-09
字串排序
線段樹也能是 Trie 樹題解
2024-11-02
字串演算法--$\mathcal{KMP，Trie}$樹
2023-03-29
字串演算法KMP
LeetCode 1032. Stream of Characters 4行Trie樹
2021-01-04
LeetCode
[翻譯]資料結構——trie樹介紹
2019-02-28
資料結構
Trie tree實踐
2019-01-08
可持久化trie
2020-11-14
持久化
看圖輕鬆理解資料結構與演算法系列(Trie樹)
2019-03-03
資料結構演算法
cf888G. Xor-MST(Boruvka最小生成樹 Trie樹)
2018-10-14
可持久化 01 trie
2024-03-21
持久化
AC自動機+trie樹實現高效多模式匹配字典
2018-07-09
模式
Master of Both —— Trie的應用
2024-05-23
AST
01-Trie 的應用
2024-08-19
一個簡單的統計問題（解決方案：Trie樹）
2019-02-21
基於PHP + TRIE樹實現敏感詞過濾演算法
2019-04-16
PHP演算法
怎樣實現基於Trie樹和字典的分詞功能
2018-06-06
分詞
[leetcode/lintcode 題解] 微軟面試題：實現 Trie（字首樹）
2020-11-17
LeetCode微軟面試題
【資料結構與演算法】Trie（字首樹）模板和例題
2022-03-17
資料結構演算法
P9648 [SNCPC2019] Unrooted Trie
2024-06-19
bzoj4260: Codechef REBXOR（01Trie）
2018-04-22
淺談樹形結構的特性和應用（上）:多叉樹，紅黑樹，堆，Trie樹，B樹，B+樹...
2020-08-01
複習(二)：KMP、Trie、最大異或對、
2020-11-01
KMP
Trie|如何用字典樹實現搜尋引擎的關鍵詞提示功能
2019-06-25
P4551 最長異或路徑（樹上字首異或01-trie）
2024-09-14
【資料結構和演算法】Trie樹簡介及應用詳解
2023-01-30
資料結構演算法
以太坊原始碼分析(52）trie原始碼分析
2018-05-14
原始碼
樹狀陣列
2024-11-29
陣列