Python技法：用re模組實現簡易tokenizer

orion發表於2022-04-29

原文網址 : https://www.cnblogs.com/orion-orion/p/16206925.html

一個簡單的tokenizer

分詞（tokenization）任務是Python字串處理中最為常見任務了。我們這裡講解用正規表示式構建簡單的表示式分詞器（tokenizer），它能夠將表示式字串從左到右解析為標記(tokens)流。

給定如下的表示式字串：

text = 'foo = 12 + 5 * 6'

我們想要將其轉換為下列以序列對呈現的分詞結果：

tokens = [('NAME', 'foo'), ('EQ', '='), ('NUM', '12'), ('PLUS', '+'),\
    ('NUM', '5'), ('TIMES', '*'), ('NUM', '6')]

要完成這樣的分詞操作，我們首先需要定義出所有可能的標記模式（所謂模式（pattern），為用來描述或者匹配/系列匹配某個句法規則的字串，這裡我們用正規表示式來做為模式），注意此處要包括空格whitespace，否則字串中出現任何模式中沒有的字元後，掃描就會停止。因為我們還需要給標記以NAME、EQ等名稱，我們採用正規表示式中的命名捕獲組來實現。

import re
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)' 
# 這裡?P<NAME>表示模式名稱，()表示一個正規表示式捕獲組，合在一起即一個命名捕獲組
EQ = r'(?P<EQ>=)'
NUM = r'(?P<NUM>\d+)' #\d表示匹配數字，+表示任意數量
PLUS = r'(?P<PLUS>\+)' #需要用\轉義
TIMES = r'(?P<TIMES>\*)' #需要用\轉義
WS = r'(?P<WS>\s+)' #\s表示匹配空格， +表示任意數量
master_pat = re.compile("|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))  # | 用於選擇多個模式，表示"或"

接下來我們用模式物件中的scanner()方法來完成分詞操作，該方法建立一個掃描物件：

scanner = master_pat.scanner(text)

然後可以用match()方法獲取單次匹配結果，一次匹配一個模式：

scanner = master_pat.scanner(text)
m = scanner.match() 
print(m.lastgroup, m.group()) # NAME foo
m = scanner.match()
print(m.lastgroup, m.group()) # WS

當然這樣一次一次呼叫過於麻煩，我們可以使用迭代器來批量呼叫，並將單次迭代結果以具名元組形式儲存

Token = namedtuple('Token', ['type', 'value'])
def generate_tokens(pat, text):
    scanner = pat.scanner(text)
    for m in iter(scanner.match, None):
        #scanner.match做為迭代器每次呼叫的方法，
        #None為哨兵的預設值，表示迭代到None停止
        yield Token(m.lastgroup, m.group())
    
for tok in generate_tokens(master_pat, "foo = 42"):
    print(tok)

最終顯示錶達式串"foo = 12 + 5 * 6"的tokens流為：

Token(type='NAME', value='foo')
Token(type='WS', value=' ')
Token(type='EQ', value='=')
Token(type='WS', value=' ')
Token(type='NUM', value='12')
Token(type='WS', value=' ')
Token(type='PLUS', value='+')
Token(type='WS', value=' ')
Token(type='NUM', value='5')
Token(type='WS', value=' ')
Token(type='TIMES', value='*')
Token(type='WS', value=' ')
Token(type='NUM', value='6')

過濾tokens流

接下來我們想要過濾掉空格標記，使用生成器表示式即可：

tokens = (tok for tok in generate_tokens(master_pat, "foo = 12 + 5 * 6")
          if tok.type != 'WS')
for tok in tokens:
    print(tok)

可以看到空格被成功過濾：

Token(type='NAME', value='foo')
Token(type='EQ', value='=')
Token(type='NUM', value='12')
Token(type='PLUS', value='+')
Token(type='NUM', value='5')
Token(type='TIMES', value='*')
Token(type='NUM', value='6')

注意子串匹配陷阱

tokens在正規表示式(即"|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))中順序也非常重要。因為在進行匹配時，re模組就會按照指定的順序對模式做匹配。故若碰巧某個模式是另一個較長模式的子串時，必須保證較長的模式在前面優先匹配。如下面分別展示正確的和錯誤的匹配方法：

LT = r'(?P<LT><)'
LE = r'(?P<LE><=)'
EQ = r'(?P<EQ>>=)'
master_pat = re.compile("|".join([LE, LT, EQ]))  # 正確的順序
master_pat = re.compile("|".join([LT, LE, EQ]))  # 錯誤的順序

第二種順序的錯誤之處在於，這樣會把'<='文字匹配為LT('<')緊跟著EQ('=')，而沒有匹配為單獨的LE(<=)。

我們對於“有可能”形成子串的模式也要小心，比如下面這樣：

PRINT = r'(?P<PRINT>print)'
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)'

master_pat = re.compile("|".join([PRINT, NAME]))  # 正確的順序

for tok in generate_tokens(master_pat, "printer"):
    print(tok)

可以看到被print實際上成了另一個模式的子串，導致另一個模式的匹配出現了問題：

# Token(type='PRINT', value='print')
# Token(type='NAME', value='er')

更高階的語法分詞，建議採用像PyParsing或PLY這樣的包。特別地，對於英文自然語言文章的分詞，一般被整合到各類NLP的包中（一般分為按空格拆分、處理前字尾、去掉停用詞三步驟）。對於中文自然語言處理分詞也有豐富的工具（比如jieba分詞工具包）。

引用

[1] Martelli A, Ravenscroft A, Ascher D. Python cookbook[M]. " O'Reilly Media, Inc.", 2015.

re模組
2019-03-22
Python技法：實現簡單的遞迴下降Parser
2022-04-30
Python遞迴
Python 正規表示式 re 模組
2018-10-12
Python
python re模組正規表示式
2018-09-12
Python
python正規表示式(re模組)
2020-08-08
Python
python3中的re模組簡單介紹及使用
2021-09-11
Python
25.python模組（加密，os，re，json）
2024-08-13
Python加密JSON
模擬實現簡易版shell
2018-03-14
python re模組常見使用方法整理
2021-09-11
Python
python中re模組的使用（正規表示式）
2021-01-17
Python
Python實現模組熱載入
2023-12-18
Python
序列化模組，subprocess模組，re模組，常用正則
2024-04-23
支援向量機python實現（簡易版）
2018-09-30
Python
python基礎之正規表示式和re模組
2020-03-12
Python
[SentencePiece]Tokenizer的原理與實現
2024-08-26
Python實現簡易版選課系統
2024-05-14
Python
Python 利用三個簡易模組熟悉前後端互動流程
2020-09-07
Python後端
極簡實用的Asp.NetCore模組化框架新增CMS模組
2021-04-06
ASP.NETNetCore框架
Python實用技法第11篇：找出序列中出現次數最多的元素
2019-02-16
Python
python inspect模組簡單使用
2020-11-19
Python
namedtuple簡易實現
2019-02-24
day23 正則，re模組
2018-11-17
re模組下的的常用方法
2018-08-18
re模組函式模式詳解
2024-11-26
函式模式
[C++ Daily] 使用模板實現簡易Python Wrapper
2024-09-14
C++AIPythonAPP
從module的簡單實現到模組化
2018-12-10
[Python]OS模組應用
2024-04-17
Python
Python內建模組之 re庫
2021-03-17
Python
Python實用技法第14篇：根據欄位將記錄分組：itertools.groupby()
2019-02-16
Python
SpringMVC的View模組用什麼實現？
2024-03-06
SpringMVCView
Python實用技法第5篇：一鍵多值字典：defaultdict
2019-02-16
Python
python如何呼叫subprocess模組實現外部命令？
2021-09-11
Python
簡單介紹python process模組
2021-05-28
Python
Python基於Socket實現簡易多人聊天室
2020-11-29
Python
進擊的模組化+webpack的簡單實現
2018-04-08
Web
簡易版 vue實現
2022-05-15
Vue
python你用過哪些模組
2024-11-09
Python
python getopt模組怎麼用？
2021-09-11
Python

Python技法：用re模組實現簡易tokenizer

一個簡單的tokenizer

過濾tokens流

注意子串匹配陷阱

引用

相關文章