【Python】正規表示式過濾文字中的html標籤、url超連結、img連結
測試文字:
"給大家看看原始文字。。。 ----------------------------<a class="member" href="https://www.aaa.com/people/0970f947b898ecc0ec035f9126dd4e08" data-hash="0970f947b898ecc0ec035f9126dd4e08" data-hovercard="p$b$0970f947b898ecc0ec035f9126dd4e08">@vczh</a> 輪子哥求擴散。</p><figure><noscript><img src="https://pic1.aaa.com/ width="1080" data-original="https://pic1.aaa.com/v2-40f4c4f1bdd70db1c7a34046440e3e64_r.jpg"></noscript>---------------”
程式碼:
# coding: utf-8
import re, os
def filter_file(path, filename):
def filter_text(text):
re_tag = re.compile('</?\w+[^>]*>') # HTML標籤
new_text = re.sub(re_tag, '', text)
new_text = re.sub(",+", ",", new_text) # 合併逗號
new_text = re.sub(" +", " ", new_text) # 合併空格
new_text = re.sub("[...|…|。。。]+", "...", new_text) # 合併句號
new_text = re.sub("-+", "--", new_text) # 合併-
new_text = re.sub("———+", "———", new_text) # 合併-
return new_text
print("Start!")
filw_path = os.path.join(path, filename)
with open(filw_path, "r+", encoding="utf-8") as fr:
data = fr.readlines()
print(len(data))
with open(filw_path + ".filter", "w+", encoding="utf-8") as fw:
for line in data:
new_line = filter_text(line)
fw.write(new_line)
print("Done!")
相關文章
- 提取超連結正規表示式
- HTML中IMG標籤總結HTML
- 匹配html標籤正規表示式HTML
- 匹配 HTML 標籤正規表示式HTML
- 匹配磁力連結的正規表示式
- 利用正規表示式去除所有html標籤,只保留文字HTML
- HTML樣式插入、連結、表單標籤HTML
- 正規表示式處理圖片地址、img標籤的方法
- 匹配迅雷種子連結的正規表示式
- 匹配圖片連結地址的正規表示式
- 匹配視訊連結地址正規表示式
- 匹配ed2k連結的正規表示式
- HTML常用基礎標籤:圖片與超連結標籤全解!HTML
- 常用正規表示式爬取網頁資訊及分析HTML標籤總結網頁HTML
- 超簡單!正規表示式總結
- 【HTML】03超連結HTML
- C#裡面超連結標籤的使用C#
- URL正規表示式
- 初識Python正規表示式(9課連發)Python
- 正規表示式總結
- 正規表示式中 “$” 並不是表示 “字串結束字串
- 正規表示式小結篇
- JS正規表示式總結JS
- Java正規表示式總結Java
- 常用正規表示式總結
- 正規表示式匹配html中的圖片HTML
- 織夢CMS友情連結標籤
- 正規表示式去除連續重複的字元字元
- 匹配URL的正規表示式(推薦)
- 按鈕式超連結
- Java 操作PDF中的超連結——新增、更新、刪除超連結Java
- Python提取Word文件中所有超連結地址和文字Python
- 正規表示式學習筆記(5)- ES6新增及參考連結筆記
- PbootCMS生成的 sitemap.xml 中增加 tag 標籤連結bootXML
- 硬剛正規表示式的心得總結
- php之正規表示式函式總結PHP函式
- HTML————7、HTML 連結HTML
- python正規表示式Python