python輕鬆過濾處理髒話與特殊敏感詞彙的方法
導讀 | 我們開發的系統往往都離不開資訊的處理,這些資訊有的內容非常敏感,就需要過濾掉不容許出現 |
python的其中一個強大之處就是它可以方便的整合很多的非標準庫,今天在GitHub上溜達又發現了一個髒話處理神器,匯入better_profanity庫後,只需要幾行程式碼就能搞定了,相當nice!
使用pip的方式將better_profanity非標準庫安裝好,這個庫好像在清華大學的映象站中沒有,其他映象站不知道有沒有,於是下載時沒有使用映象站,預設到官方去下載即可。
pip install better_profanity # 將處理模組直接匯入到程式碼塊中 from better_profanity import profanity
1、預設髒話庫/敏感詞庫處理
預設情況下就只能處理英文的髒話。
censored_text = profanity.censor("you are bitch") print(censored_text) # you are ****
可以看到其中bitch字元被認為是髒話已經處理成****字元了。
當然,還可以將處理後的髒話字元換成別的字元代替,比如下面這樣處理。
censored_text = profanity.censor("you are bitch",'-') print(censored_text) # you are ----
這樣****就被替換成了----。
2、自定義過濾資訊處理
bad_words = ['Python', 'Java', 'Scala'] # 自定義過濾詞彙 profanity.load_censor_words(bad_words) # 載入自定義過濾詞彙 censored_text = profanity.censor("Python is very Good !") # 執行過濾 print(censored_text) # **** is very Good !
可以發現,想要過濾的python字元已經成功過濾掉了。
3、contains_profanity函式
contains_profanity函式用來檢視我們的語句中是否包含需要過濾的詞彙,如果包含則會返回True,否則返回False。
bad_words = ['bitch', 'Java', 'Scala'] # 自定義過濾詞彙 profanity.load_censor_words(bad_words) # 載入自定義過濾詞彙 censored_text = profanity.contains_profanity("you are bitch") print(censored_text) # True
結果為True,表示包含需要過濾的詞彙資訊。
4、load_censor_words_from_file函式
load_censor_words_from_file函式用於載入需要過濾詞彙的檔案。
profanity.load_censor_words_from_file('/usr/load/bad_words.txt')
載入完詞彙檔案之後,按照之前的邏輯處理即可。
詞彙檔案的定義格式,按照每個詞彙獨佔一行的形式進行定義,檔案格式使用.txt文字文件即可。
# bitch # bitches # bitchin # bitching # blowjob # blowjobs # blue waffle
到此這篇關於python輕鬆過濾處理髒話與特殊敏感詞彙的文章就介紹到這了
原文來自:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69955379/viewspace-2909922/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 用laravel框架實現敏感詞彙過濾功能Laravel框架
- 教你如何實現Python 過濾敏感詞Python
- JavaWeb - 【Filter】敏感詞過濾JavaWebFilter
- 非法詞彙過濾
- 高效的關鍵詞替換和敏感詞過濾工具
- JavaScript評論敏感詞過濾程式碼JavaScript
- js實現敏感詞過濾演算法JS演算法
- JAVA使用DFA演算法過濾敏感詞Java演算法
- DFA在C#中的實現:過濾敏感詞C#
- 過濾或者查詢敏感詞(DFA 演算法)演算法
- DFA演算法之內容敏感詞過濾演算法
- 60萬行的Excel資料,Python輕鬆處理ExcelPython
- 開源了一個 JavaScript 版敏感詞過濾庫JavaScript
- Python文字處理NLP:分詞與詞雲圖Python分詞
- 基於PHP + TRIE樹實現敏感詞過濾演算法PHP演算法
- JavaScript過濾特殊字串JavaScript字串
- BI與SaaS碰撞,讓資料處理更加輕鬆(下)
- 處理VM的一種特殊方法和思路
- 白話Angular詞彙Angular
- 掌握BeanShell,輕鬆處理jmeter中的資料BeanJMeter
- 關於特殊符號&與& 的處理符號
- 8Manage輕鬆解決採購過程“髒亂差”問題
- 【面試被虐】說說遊戲中的敏感詞過濾是如何實現的?面試遊戲
- Python 影像處理 OpenCV (7):影像平滑(濾波)處理PythonOpenCV
- springboot專案結合filter,jdk代理實現敏感詞過濾(簡單版)Spring BootFilterJDK
- 自然語言處理:分詞方法自然語言處理分詞
- 效率提升50倍,輕鬆處理大資料大資料
- Pandas缺失值處理 | 輕鬆玩轉Pandas(3)
- 如何在Java中輕鬆處理Emoji Unicode - UdayakumarJavaUnicode
- 資料預處理方法彙總
- 微課|玩轉Python輕鬆過二級(3.1節):列表常用方法Python
- Python 特殊方法Python
- 爬蟲敏感圖片的識別與過濾,瞭解一下?爬蟲
- 結合 AOP 輕鬆處理事件釋出處理日誌事件
- DRF 過濾排序分頁異常處理排序
- 微課|玩轉Python輕鬆過二級(2.1.1):常量與變數Python變數
- PbootCMS設定當前站點模板,模板子目錄,黑白名單,敏感詞過濾等boot
- 一文輕鬆搞定批處理框架 Spring Batch框架SpringBAT