【Python】正規表示式過濾文字中的html標籤、url超連結、img連結
測試文字:
"給大家看看原始文字。。。 ----------------------------<a class="member" href="https://www.aaa.com/people/0970f947b898ecc0ec035f9126dd4e08" data-hash="0970f947b898ecc0ec035f9126dd4e08" data-hovercard="p$b$0970f947b898ecc0ec035f9126dd4e08">@vczh</a> 輪子哥求擴散。</p><figure><noscript><img src="https://pic1.aaa.com/ width="1080" data-original="https://pic1.aaa.com/v2-40f4c4f1bdd70db1c7a34046440e3e64_r.jpg"></noscript>---------------”
程式碼:
# coding: utf-8
import re, os
def filter_file(path, filename):
def filter_text(text):
re_tag = re.compile('</?\w+[^>]*>') # HTML標籤
new_text = re.sub(re_tag, '', text)
new_text = re.sub(",+", ",", new_text) # 合併逗號
new_text = re.sub(" +", " ", new_text) # 合併空格
new_text = re.sub("[...|…|。。。]+", "...", new_text) # 合併句號
new_text = re.sub("-+", "--", new_text) # 合併-
new_text = re.sub("———+", "———", new_text) # 合併-
return new_text
print("Start!")
filw_path = os.path.join(path, filename)
with open(filw_path, "r+", encoding="utf-8") as fr:
data = fr.readlines()
print(len(data))
with open(filw_path + ".filter", "w+", encoding="utf-8") as fw:
for line in data:
new_line = filter_text(line)
fw.write(new_line)
print("Done!")
相關文章
- html中常用的標籤-超連結標籤HTML
- HTML <a> 標籤的正規表示式HTML
- 匹配url連結的正規表示式程式碼例項
- HTML中IMG標籤總結HTML
- 匹配html標籤正規表示式HTML
- 匹配 HTML 標籤正規表示式HTML
- 匹配HTML標籤的正規表示式HTML
- 利用正規表示式去除所有html標籤,只保留文字HTML
- 運用正規表示式在Asp中過濾Html標籤程式碼的四種不同方法HTML
- 正規表示式處理圖片地址、img標籤的方法
- HTML樣式插入、連結、表單標籤HTML
- 匹配圖片連結地址的正規表示式
- 匹配視訊連結地址正規表示式
- 常用正規表示式爬取網頁資訊及分析HTML標籤總結網頁HTML
- 匹配<a>連結的正規表示式程式碼例項
- HTML常用基礎標籤:圖片與超連結標籤全解!HTML
- C#使用正規表示式過濾HTML程式碼C#HTML
- HTML超連結HTML
- 超簡單!正規表示式總結
- python 正規表示式過濾例項1Python
- 可以提取連結<a>元素的正規表示式程式碼例項
- js獲取內容中的url連結,並設定a標籤JS
- C#裡面超連結標籤的使用C#
- 正規表示式查詢具有指定屬性值的html標籤HTML
- 【HTML】03超連結HTML
- 正規表示式總結
- 正規表示式從<img>標籤中提取src屬性值圖片路徑
- 正規表示式中 “$” 並不是表示 “字串結束字串
- 初識Python正規表示式(9課連發)Python
- 正規表示式的小總結
- ios顯示html標籤,超連結顏色以及下劃線的處理iOSHTML
- Java正規表示式總結Java
- 常用正規表示式總結
- JS正規表示式總結JS
- javascript正規表示式總結JavaScript
- 正規表示式匹配html中的圖片HTML
- python使用正規表示式文字替換Python
- 正規表示式去除連續重複的字元字元