優質中文NLP資源集合,做專案一定用得到!

AI科技大本營發表於2019-02-23

640?wx_fmt=jpeg


整理 | Jane

出品 | AI科技大本營(公眾號id:rgznai100)


今天要給大家在推薦 Github 上一個優質的中文 NLP 工具和資源集合專案——funNLP,已經獲得了 5.3k Stars,1k+ Forks。


專案作者 楊洋,一枚水博&網際網路民工,目前主要從事文字分類,資訊抽取等自然語言處理研發工作;興趣包括:語言資源構建、資訊抽取與知識圖譜、輿情分析等。喜歡分享一些小知識,設有知乎專欄《機器學習小知識》


作者把自己使用的一些資源或工具包整理成這個集合專案,並且會不斷更新。專案已經裡面不乏很多有用和有趣的內容,包含 50 多個資源或工具,比如很多有用的詞庫:中英文敏感詞、暴恐詞表、文人名庫、中文縮寫庫、停用詞、公司名字大全、成語詞庫、地名詞庫百度中文問答資料集......非常值得學習研究 NLP 專案的同學們收藏!


除了幾十個的優質資源彙總外,作者的另一箇中文 NLP 工具包——coco NLP,也很實用,目前應用在尋找失蹤人口專案中。通過這個工具包,大家可以直接從文字資訊中抽取一些基本資訊,比如手機號、郵箱、手機歸屬地、時間點、地址和一些片語資訊。


0.先給大家 coco NLP 工具的地址:


https://github.com/fighting41love/cocoNLP


因為這個工具裡也包含了第一個專案中提到的一些資源,下面我們所列的其他資源,就不再列出重複資源的地址了,比如:phone 中國手機歸屬地查詢、抽取email的正規表示式、抽取phone_number的正規表示式、人名語料庫、時間抽取等。


營長列出了其他一些主要資源的地址,大家還可以從文章最後給出的專案地址中訪問更多。也感謝開源這些資源的作者,如果下面有提到你的專案,歡迎給我們留言,讓營長發現可愛的你們~


1. textfilter: 中英文敏感詞過濾 

https://github.com/observerss/textfilter


2. langid:97種語言檢測 

https://github.com/saffsd/langid.py


3. langdetect:檢測另一種語言

https://code.google.com/archive/p/language-detection/


4. phone國際手機、電話歸屬地查詢:

https://github.com/AfterShip/phone


6. ngender:根據名字判斷性別,基於樸素貝葉斯計算的概率

https://github.com/observerss/ngender


7.抽取身份證號的正規表示式

IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'

IDs = re.findall(IDCards_pattern, text, flags=0)


8.中文縮寫庫

https://github.com/zhangyics/Chinese-abbreviation-dataset/blob/master/dev_set.txt


9.漢語拆字詞典

https://github.com/kfcd/chaizi


10.詞彙情感值

https://github.com/rainarch/SentiBridge/blob/master/Entity_Emotion_Express/CCF_data/pair_mine_result


11.中文詞庫、停用詞、敏感詞,此 package 的敏感詞庫分類更細,包含反動詞庫, 敏感詞庫表統計, 暴恐詞庫, 民生詞庫, 色情詞庫

https://github.com/fighting41love/Chinese_from_dongxiexidian


12.漢字轉拼音

https://github.com/mozillazg/python-pinyin


13.同義詞庫、反義詞庫、否定詞庫

https://github.com/guotong1988/chinese_dictionary


14.無空格英文串分割、抽取單詞

https://github.com/keredson/wordninja


15.THU整理的詞庫,包含 IT詞庫、財經詞庫、成語詞庫、地名詞庫、歷史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫

http://thuocl.thunlp.org/sendMessage


16.百度中文問答資料集

連結:

https://pan.baidu.com/s/1QUsKcFWZ7Tg1dk_AbldZ1A

提取碼: 2dva


17.Bert 資源

(1)文字分類實踐

https://github.com/NLPScott/bert-Chinese-classification-task


(2)Bert Tutorial 文字分類教程

https://github.com/Socialbird-AILab/BERT-Classification-Tutorial


(3)Bert pytorch實現

https://github.com/huggingface/pytorch-pretrained-BERT


(4)Bert用於中文命名實體識別,tensorflow版本

https://github.com/macanv/BERT-BiLSTM-CRF-NER


(5)Bert 基於 Keras 的封裝分類標註框架 Kashgari,幾分鐘即可搭建一個分類或者序列標註模型

https://github.com/BrikerMan/Kashgari


(6)Bert、ELMO的圖解

https://jalammar.github.io/illustrated-bert/


(7)BERT: Pre-trained models and downstream applications

https://github.com/asyml/texar/tree/master/examples/bert


更多優質資源可訪問:


https://github.com/fighting41love/funNLP




(本文為AI科技大本營原創文章,轉載請微信聯絡 1092722531)


群招募


掃碼新增小助手微信,回覆:公司+研究方向(學校+研究方向),邀你加入技術交流群。技術群稽核較嚴,敬請諒解。

640?wx_fmt=jpeg

推薦閱讀:

                         640?wx_fmt=png

點選“閱讀原文”,檢視歷史精彩文章。

相關文章