優質中文NLP資源集合,做專案一定用得到!
整理 | Jane
出品 | AI科技大本營(公眾號id:rgznai100)
今天要給大家在推薦 Github 上一個優質的中文 NLP 工具和資源集合專案——funNLP,已經獲得了 5.3k Stars,1k+ Forks。
專案作者 楊洋,一枚水博&網際網路民工,目前主要從事文字分類,資訊抽取等自然語言處理研發工作;興趣包括:語言資源構建、資訊抽取與知識圖譜、輿情分析等。喜歡分享一些小知識,設有知乎專欄《機器學習小知識》
作者把自己使用的一些資源或工具包整理成這個集合專案,並且會不斷更新。專案已經裡面不乏很多有用和有趣的內容,包含 50 多個資源或工具,比如很多有用的詞庫:中英文敏感詞、暴恐詞表、文人名庫、中文縮寫庫、停用詞、公司名字大全、成語詞庫、地名詞庫百度中文問答資料集......非常值得學習研究 NLP 專案的同學們收藏!
除了幾十個的優質資源彙總外,作者的另一箇中文 NLP 工具包——coco NLP,也很實用,目前應用在尋找失蹤人口專案中。通過這個工具包,大家可以直接從文字資訊中抽取一些基本資訊,比如手機號、郵箱、手機歸屬地、時間點、地址和一些片語資訊。
0.先給大家 coco NLP 工具的地址:
https://github.com/fighting41love/cocoNLP
因為這個工具裡也包含了第一個專案中提到的一些資源,下面我們所列的其他資源,就不再列出重複資源的地址了,比如:phone 中國手機歸屬地查詢、抽取email的正規表示式、抽取phone_number的正規表示式、人名語料庫、時間抽取等。
營長列出了其他一些主要資源的地址,大家還可以從文章最後給出的專案地址中訪問更多。也感謝開源這些資源的作者,如果下面有提到你的專案,歡迎給我們留言,讓營長發現可愛的你們~
1. textfilter: 中英文敏感詞過濾
https://github.com/observerss/textfilter
2. langid:97種語言檢測
https://github.com/saffsd/langid.py
3. langdetect:檢測另一種語言
https://code.google.com/archive/p/language-detection/
4. phone國際手機、電話歸屬地查詢:
https://github.com/AfterShip/phone
6. ngender:根據名字判斷性別,基於樸素貝葉斯計算的概率
https://github.com/observerss/ngender
7.抽取身份證號的正規表示式
IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'
IDs = re.findall(IDCards_pattern, text, flags=0)
8.中文縮寫庫
https://github.com/zhangyics/Chinese-abbreviation-dataset/blob/master/dev_set.txt
9.漢語拆字詞典
https://github.com/kfcd/chaizi
10.詞彙情感值
https://github.com/rainarch/SentiBridge/blob/master/Entity_Emotion_Express/CCF_data/pair_mine_result
11.中文詞庫、停用詞、敏感詞,此 package 的敏感詞庫分類更細,包含反動詞庫, 敏感詞庫表統計, 暴恐詞庫, 民生詞庫, 色情詞庫
https://github.com/fighting41love/Chinese_from_dongxiexidian
12.漢字轉拼音
https://github.com/mozillazg/python-pinyin
13.同義詞庫、反義詞庫、否定詞庫
https://github.com/guotong1988/chinese_dictionary
14.無空格英文串分割、抽取單詞
https://github.com/keredson/wordninja
15.THU整理的詞庫,包含 IT詞庫、財經詞庫、成語詞庫、地名詞庫、歷史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫
http://thuocl.thunlp.org/sendMessage
16.百度中文問答資料集
連結:
https://pan.baidu.com/s/1QUsKcFWZ7Tg1dk_AbldZ1A
提取碼: 2dva
17.Bert 資源
(1)文字分類實踐
https://github.com/NLPScott/bert-Chinese-classification-task
(2)Bert Tutorial 文字分類教程
https://github.com/Socialbird-AILab/BERT-Classification-Tutorial
(3)Bert pytorch實現
https://github.com/huggingface/pytorch-pretrained-BERT
(4)Bert用於中文命名實體識別,tensorflow版本
https://github.com/macanv/BERT-BiLSTM-CRF-NER
(5)Bert 基於 Keras 的封裝分類標註框架 Kashgari,幾分鐘即可搭建一個分類或者序列標註模型
https://github.com/BrikerMan/Kashgari
(6)Bert、ELMO的圖解
https://jalammar.github.io/illustrated-bert/
(7)BERT: Pre-trained models and downstream applications
https://github.com/asyml/texar/tree/master/examples/bert
更多優質資源可訪問:
https://github.com/fighting41love/funNLP
(本文為AI科技大本營原創文章,轉載請微信聯絡 1092722531)
群招募
掃碼新增小助手微信,回覆:公司+研究方向(學校+研究方向),邀你加入技術交流群。技術群稽核較嚴,敬請諒解。
推薦閱讀:
點選“閱讀原文”,檢視歷史精彩文章。
相關文章
- 自學入門 Python 優質中文資源索引Python索引
- iOS 開源專案集合iOS
- facebook開源專案集合
- 優質的 Vue 開源專案 – 收藏集 – 掘金Vue
- Kotlin開源專案集合Kotlin
- android開源專案集合Android
- 微信小程式開源專案集合微信小程式
- GitHub 上優質專案整理Github
- 優質資源網站分享網站
- 專案中有效的資源管理怎麼做?
- 2018.7月Vue優質開源專案清單Vue
- 程式碼質量對比:開源專案 vs 閉源專案
- 資源共享|Python 中文書籍大集合!Python
- R.swift-優雅地引用專案資源Swift
- Flutter進階 | Flutter 優質練手專案以及優質外掛Flutter
- 做一個優秀的開源專案,需要注意哪些方面?
- 做一個優秀的開源專案 需要注意哪些方面?
- nlp 中文資料預處理
- 做一個合格的前端,gulp資源大集合前端
- 如何給開源專案做貢獻
- 開源閉源專案程式碼質量對比
- 清理無用的 Android 專案資源Android
- 19個安全專家一定要關注的開源 GitHub 專案Github
- 用“質量門”確保專案質量(轉)
- 專案資源管理
- 你一定用得到的LaTeX入門資料
- 前端資源集合前端
- 這12個最新AI開源專案,你一定要收下AI
- Android開源專案以及開源庫集合(持續更新中)Android
- 清理 iOS 專案無用的圖片資源iOS
- 清理ios專案無用的圖片資源iOS
- C#開源資源專案C#
- Go優秀開源專案推薦Go
- [轉] Android優秀開源專案Android
- GitHub實用開源專案Github
- Bootstrap相關優質專案必備網址boot
- 《Google 開源專案風格指南》中文版Go
- PHP 得到來源網址的應用PHP