優質中文NLP資源集合，做專案一定用得到！

AI科技大本營發表於2019-02-23

原文網址 : https://blog.csdn.net/dqcfkyqdxym3f8rb0/article/details/87899215

640?wx_fmt=jpeg

整理 | Jane

出品 | AI科技大本營（公眾號id：rgznai100）

今天要給大家在推薦 Github 上一個優質的中文 NLP 工具和資源集合專案——funNLP，已經獲得了 5.3k Stars，1k+ Forks。

專案作者楊洋，一枚水博&網際網路民工，目前主要從事文字分類，資訊抽取等自然語言處理研發工作；興趣包括：語言資源構建、資訊抽取與知識圖譜、輿情分析等。喜歡分享一些小知識，設有知乎專欄《機器學習小知識》

作者把自己使用的一些資源或工具包整理成這個集合專案，並且會不斷更新。專案已經裡面不乏很多有用和有趣的內容，包含 50 多個資源或工具，比如很多有用的詞庫：中英文敏感詞、暴恐詞表、文人名庫、中文縮寫庫、停用詞、公司名字大全、成語詞庫、地名詞庫百度中文問答資料集......非常值得學習研究 NLP 專案的同學們收藏！

除了幾十個的優質資源彙總外，作者的另一箇中文 NLP 工具包——coco NLP，也很實用，目前應用在尋找失蹤人口專案中。通過這個工具包，大家可以直接從文字資訊中抽取一些基本資訊，比如手機號、郵箱、手機歸屬地、時間點、地址和一些片語資訊。

0.先給大家 coco NLP 工具的地址：

https://github.com/fighting41love/cocoNLP

因為這個工具裡也包含了第一個專案中提到的一些資源，下面我們所列的其他資源，就不再列出重複資源的地址了，比如：phone 中國手機歸屬地查詢、抽取email的正規表示式、抽取phone_number的正規表示式、人名語料庫、時間抽取等。

營長列出了其他一些主要資源的地址，大家還可以從文章最後給出的專案地址中訪問更多。也感謝開源這些資源的作者，如果下面有提到你的專案，歡迎給我們留言，讓營長發現可愛的你們~

1. textfilter: 中英文敏感詞過濾

https://github.com/observerss/textfilter

2. langid：97種語言檢測

https://github.com/saffsd/langid.py

3. langdetect：檢測另一種語言

https://code.google.com/archive/p/language-detection/

4. phone國際手機、電話歸屬地查詢：

https://github.com/AfterShip/phone

6. ngender：根據名字判斷性別，基於樸素貝葉斯計算的概率

https://github.com/observerss/ngender

7.抽取身份證號的正規表示式

IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'
IDs = re.findall(IDCards_pattern, text, flags=0)

8.中文縮寫庫

https://github.com/zhangyics/Chinese-abbreviation-dataset/blob/master/dev_set.txt

9.漢語拆字詞典

https://github.com/kfcd/chaizi

10.詞彙情感值

https://github.com/rainarch/SentiBridge/blob/master/Entity_Emotion_Express/CCF_data/pair_mine_result

11.中文詞庫、停用詞、敏感詞，此 package 的敏感詞庫分類更細，包含反動詞庫，敏感詞庫表統計，暴恐詞庫，民生詞庫，色情詞庫

https://github.com/fighting41love/Chinese_from_dongxiexidian

12.漢字轉拼音

https://github.com/mozillazg/python-pinyin

13.同義詞庫、反義詞庫、否定詞庫

https://github.com/guotong1988/chinese_dictionary

14.無空格英文串分割、抽取單詞

https://github.com/keredson/wordninja

15.THU整理的詞庫，包含 IT詞庫、財經詞庫、成語詞庫、地名詞庫、歷史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫

http://thuocl.thunlp.org/sendMessage

16.百度中文問答資料集

連結：
https://pan.baidu.com/s/1QUsKcFWZ7Tg1dk_AbldZ1A
提取碼: 2dva

17.Bert 資源

（1）文字分類實踐

https://github.com/NLPScott/bert-Chinese-classification-task

（2）Bert Tutorial 文字分類教程

https://github.com/Socialbird-AILab/BERT-Classification-Tutorial

（3）Bert pytorch實現

https://github.com/huggingface/pytorch-pretrained-BERT

（4）Bert用於中文命名實體識別，tensorflow版本

https://github.com/macanv/BERT-BiLSTM-CRF-NER

（5）Bert 基於 Keras 的封裝分類標註框架 Kashgari，幾分鐘即可搭建一個分類或者序列標註模型

https://github.com/BrikerMan/Kashgari

（6）Bert、ELMO的圖解

https://jalammar.github.io/illustrated-bert/

（7）BERT: Pre-trained models and downstream applications

https://github.com/asyml/texar/tree/master/examples/bert

更多優質資源可訪問：

https://github.com/fighting41love/funNLP

（本文為AI科技大本營原創文章，轉載請微信聯絡 1092722531）

群招募

掃碼新增小助手微信，回覆：公司+研究方向（學校+研究方向），邀你加入技術交流群。技術群稽核較嚴，敬請諒解。

640?wx_fmt=jpeg

推薦閱讀：

640?wx_fmt=png

點選“閱讀原文”，檢視歷史精彩文章。

自學入門 Python 優質中文資源索引
2019-02-28
Python索引
2018.7月Vue優質開源專案清單
2018-08-08
Vue
GitHub 上優質專案整理
2019-04-28
Github
專案中有效的資源管理怎麼做？
2022-07-14
微信小程式開源專案集合
2020-10-30
微信小程式
資源共享｜Python 中文書籍大集合！
2019-01-11
Python
優質資源網站分享
2022-10-28
網站
R.swift-優雅地引用專案資源
2019-05-02
Swift
Flutter進階 | Flutter 優質練手專案以及優質外掛
2018-07-18
Flutter
如何給開源專案做貢獻
2019-08-14
你一定用得到的LaTeX入門資料
2020-12-06
nlp 中文資料預處理
2019-12-02
專案資源管理
2024-03-22
這12個最新AI開源專案，你一定要收下
2018-09-07
AI
前端資源集合
2018-09-05
前端
Go優秀開源專案推薦
2021-08-26
Go
Android專案中最火最常用的優秀開源專案
2018-05-11
Android
GitHub實用開源專案
2022-12-23
Github
《Google 開源專案風格指南》中文版
2022-11-27
Go
python大型專案_Python開源專案大集合：15個領域，181個專案 | 硬核乾貨
2022-02-21
Python
Python開源專案大集合：15個領域，181個專案 | 硬核乾貨
2018-12-20
Python
GitHub 中文排行榜，高分優秀中文專案一網打盡！
2019-10-25
Github
不會用專案管理軟體，做不成專案經理
2019-07-18
專案管理
GitHub 上優秀的 Go 開源專案
2019-12-25
GithubGo
GitHub上優秀的Go開源專案
2019-12-31
GithubGo
專案：IT資源共享資源（登入前端）<1>
2019-05-08
前端
FutureBuilder and StreamBuilder 優雅的構建高質量專案
2020-06-30
Rebuild
漫談專案質量保障——協作流程優化
2022-02-27
優化
專案微管理41 - 資源
2020-09-20
資源又不足？專案資源該如何有效管理？
2020-07-31
優秀的 Spring Boot 語言開源專案
2018-08-24
Spring Boot
NLP之中文分詞
2020-10-12
中文分詞
如何打造高質量的NLP資料集
2019-09-03
GitHub 上有哪些適合新手跟進的優質專案？
2020-02-05
Github
保姆級教程，如何發現 GitHub 上的優質專案？
2020-07-29
Github
專案資源管理-日曆圖
2018-07-04
專案資源管理流程例項
2023-04-27
爬蟲實戰專案集合
2019-02-28
爬蟲

優質中文NLP資源集合，做專案一定用得到！

相關文章