python輕鬆過濾處理髒話與特殊敏感詞彙的方法
導讀 | 我們開發的系統往往都離不開資訊的處理,這些資訊有的內容非常敏感,就需要過濾掉不容許出現 |
python的其中一個強大之處就是它可以方便的整合很多的非標準庫,今天在GitHub上溜達又發現了一個髒話處理神器,匯入better_profanity庫後,只需要幾行程式碼就能搞定了,相當nice!
使用pip的方式將better_profanity非標準庫安裝好,這個庫好像在清華大學的映象站中沒有,其他映象站不知道有沒有,於是下載時沒有使用映象站,預設到官方去下載即可。
pip install better_profanity # 將處理模組直接匯入到程式碼塊中 from better_profanity import profanity
1、預設髒話庫/敏感詞庫處理
預設情況下就只能處理英文的髒話。
censored_text = profanity.censor("you are bitch") print(censored_text) # you are ****
可以看到其中bitch字元被認為是髒話已經處理成****字元了。
當然,還可以將處理後的髒話字元換成別的字元代替,比如下面這樣處理。
censored_text = profanity.censor("you are bitch",'-') print(censored_text) # you are ----
這樣****就被替換成了----。
2、自定義過濾資訊處理
bad_words = ['Python', 'Java', 'Scala'] # 自定義過濾詞彙 profanity.load_censor_words(bad_words) # 載入自定義過濾詞彙 censored_text = profanity.censor("Python is very Good !") # 執行過濾 print(censored_text) # **** is very Good !
可以發現,想要過濾的python字元已經成功過濾掉了。
3、contains_profanity函式
contains_profanity函式用來檢視我們的語句中是否包含需要過濾的詞彙,如果包含則會返回True,否則返回False。
bad_words = ['bitch', 'Java', 'Scala'] # 自定義過濾詞彙 profanity.load_censor_words(bad_words) # 載入自定義過濾詞彙 censored_text = profanity.contains_profanity("you are bitch") print(censored_text) # True
結果為True,表示包含需要過濾的詞彙資訊。
4、load_censor_words_from_file函式
load_censor_words_from_file函式用於載入需要過濾詞彙的檔案。
profanity.load_censor_words_from_file('/usr/load/bad_words.txt')
載入完詞彙檔案之後,按照之前的邏輯處理即可。
詞彙檔案的定義格式,按照每個詞彙獨佔一行的形式進行定義,檔案格式使用.txt文字文件即可。
# bitch # bitches # bitchin # bitching # blowjob # blowjobs # blue waffle
到此這篇關於python輕鬆過濾處理髒話與特殊敏感詞彙的文章就介紹到這了
原文來自:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69955379/viewspace-2909922/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 用laravel框架實現敏感詞彙過濾功能Laravel框架
- PHP對錶單提交特殊字元的過濾和處理PHP字元
- Java敏感詞過濾Java
- 教你如何實現Python 過濾敏感詞Python
- 60萬行的Excel資料,Python輕鬆處理ExcelPython
- JavaWeb - 【Filter】敏感詞過濾JavaWebFilter
- 輕鬆實現session的mysql處理 (轉)SessionMySql
- JavaScript過濾特殊字串JavaScript字串
- BI與SaaS碰撞,讓資料處理更加輕鬆(下)
- lubridate—輕鬆處理日期時間
- 8Manage輕鬆解決採購過程“髒亂差”問題
- 掌握BeanShell,輕鬆處理jmeter中的資料BeanJMeter
- 處理VM的一種特殊方法和思路
- 關於特殊符號&與& 的處理符號
- Python 影像處理 OpenCV (7):影像平滑(濾波)處理PythonOpenCV
- Pandas缺失值處理 | 輕鬆玩轉Pandas(3)
- 效率提升50倍,輕鬆處理大資料大資料
- 特殊字元的處理。。¥$$$字元
- JavaScript評論敏感詞過濾程式碼JavaScript
- 結合 AOP 輕鬆處理事件釋出處理日誌事件
- 爬蟲敏感圖片的識別與過濾,瞭解一下?爬蟲
- php插入資料含有特殊符號的處理方法PHP符號
- 過濾器應用【編碼、敏感詞、壓縮、轉義過濾器】過濾器
- 微課|玩轉Python輕鬆過二級(3.1節):列表常用方法Python
- js實現敏感詞過濾演算法JS演算法
- JAVA使用DFA演算法過濾敏感詞Java演算法
- DRF 過濾排序分頁異常處理排序
- 微課|玩轉Python輕鬆過二級(2.1.1):常量與變數Python變數
- DFA在C#中的實現:過濾敏感詞C#
- C++ 異常處理機制詳解:輕鬆掌握異常處理技巧C++
- 這12種方法輕鬆合併Python中的列表Python
- Python自然語言處理 5 分類和標註詞彙Python自然語言處理
- 如何在Java中輕鬆處理Emoji Unicode - UdayakumarJavaUnicode
- 一文輕鬆搞定批處理框架 Spring Batch框架SpringBAT
- 在.NET Framework中輕鬆處理XML資料(一) (轉)FrameworkXML
- 在.NET Framework中輕鬆處理XML資料(五) (轉)FrameworkXML
- Python 特殊方法Python
- 高效的關鍵詞替換和敏感詞過濾工具