day9資料解析

YuFu259發表於2024-05-27

正規表示式:規則表示式,文字排列規則的表示式//獨立的程式語言
//把自己想輸出的統一成一套規則
1.【元字元】//萬用字元. 字符集「」
re.findall(正則模式,文字)基於正則模式查詢所有匹配的文字內容
ret1 = refindall // 萬用字元. 除換行符以外都能匹配的
字符集 ^ //取反
/d 匹配成功就叭叭
/d+ 重複 + 1多次,更具左邊#預設貪婪匹配
取消貪婪匹配:/d+?//+?
*?
\w{6} / /輸出6位以內的
^\W+ //從第一位開始是否有連續的
\w+$ //後面開始是否有字元

//re.findall("abc","abc,abcc,abe,ab") //abc abcc ab ab
()具備模式捕獲的能力,也就是優先提取資料的能力,透過(?:)可以取消模式捕獲
("\w+@(?:163|qq).com")//前面重複才取消貪婪

(,\w{5})//剔除不需要的因數

2.【常用正規表示式】
3.【re模組的方法】
4【正則進階】

絕對貪婪:ret = re.findall("<.+>".text)
*可以匹配
ret = re.findall("<. *>", text re.S) //識別換行符

相關文章