【Python】正規表示式過濾文字中的html標籤、url超連結、img連結

CS青雀發表於2019-02-15

原文網址 : https://blog.csdn.net/ztf312/article/details/87352580

測試文字：

"給大家看看原始文字。。。 ----------------------------<a class="member" href="https://www.aaa.com/people/0970f947b898ecc0ec035f9126dd4e08" data-hash="0970f947b898ecc0ec035f9126dd4e08" data-hovercard="p$b$0970f947b898ecc0ec035f9126dd4e08">@vczh</a> 輪子哥求擴散。</p><figure><noscript><img src="https://pic1.aaa.com/ width="1080" data-original="https://pic1.aaa.com/v2-40f4c4f1bdd70db1c7a34046440e3e64_r.jpg"></noscript>---------------”

程式碼：

# coding: utf-8
import re, os

def filter_file(path, filename):

    def filter_text(text):
        re_tag = re.compile('</?\w+[^>]*>')  # HTML標籤
        new_text = re.sub(re_tag, '', text)
        new_text = re.sub(",+", ",", new_text)   # 合併逗號
        new_text = re.sub(" +", " ", new_text)   # 合併空格
        new_text = re.sub("[...|…|。。。]+", "...", new_text)  # 合併句號
        new_text = re.sub("-+", "--", new_text)  # 合併-
        new_text = re.sub("———+", "———", new_text)  # 合併-
        return new_text

    print("Start!")
    filw_path = os.path.join(path, filename)
    with open(filw_path, "r+", encoding="utf-8") as fr:
        data = fr.readlines()
        print(len(data))
    with open(filw_path + ".filter", "w+", encoding="utf-8") as fw:
        for line in data:
            new_line = filter_text(line)
            fw.write(new_line)
    print("Done!")

提取超連結正規表示式
2020-04-13
HTML中IMG標籤總結
2018-08-07
HTML
匹配html標籤正規表示式
2020-02-17
HTML
匹配 HTML 標籤正規表示式
2020-04-12
HTML
匹配磁力連結的正規表示式
2020-02-04
利用正規表示式去除所有html標籤，只保留文字
2018-07-02
HTML
HTML樣式插入、連結、表單標籤
2020-10-18
HTML
正規表示式處理圖片地址、img標籤的方法
2022-03-14
匹配迅雷種子連結的正規表示式
2020-02-03
匹配圖片連結地址的正規表示式
2020-02-11
匹配視訊連結地址正規表示式
2020-02-14
匹配ed2k連結的正規表示式
2020-02-04
HTML常用基礎標籤：圖片與超連結標籤全解！
2024-03-16
HTML
常用正規表示式爬取網頁資訊及分析HTML標籤總結
2018-09-05
網頁HTML
超簡單！正規表示式總結
2020-11-05
URL正規表示式
2019-04-11
【HTML】03超連結
2024-03-08
HTML
C#裡面超連結標籤的使用
2021-09-09
C#
初識Python正規表示式（9課連發）
2019-01-05
Python
正規表示式總結
2019-01-19
正規表示式中 “$” 並不是表示 “字串結束
2024-04-15
字串
JS正規表示式總結
2018-12-20
JS
Java正規表示式總結
2018-08-22
Java
常用正規表示式總結
2018-09-19
正規表示式小結篇
2022-03-17
正規表示式匹配html中的圖片
2018-05-20
HTML
正規表示式去除連續重複的字元
2019-02-21
字元
織夢CMS友情連結標籤
2021-03-29
匹配URL的正規表示式(推薦)
2022-03-19
按鈕式超連結
2021-09-09
Java 操作PDF中的超連結——新增、更新、刪除超連結
2022-06-09
Java
正規表示式學習筆記（5）- ES6新增及參考連結
2021-09-09
筆記
Python提取Word文件中所有超連結地址和文字
2018-12-25
Python
硬剛正規表示式的心得總結
2018-03-19
PbootCMS生成的 sitemap.xml 中增加 tag 標籤連結
2024-11-04
bootXML
php之正規表示式函式總結
2019-02-16
PHP函式
Python——正規表示式
2019-08-05
Python
python正規表示式
2024-06-15
Python

【Python】正規表示式過濾文字中的html標籤、url超連結、img連結

相關文章