自然語言處理常用資源筆記分享

夢淑發表於2021-08-18

原文網址 : https://www.cnblogs.com/wujunchao/p/15157122.html

宣告：個人筆記觀點，持續更新......

個人收集的自用及備用的自然語言處理相關資源，僅供學術交流
專案地址：https://github.com/junchaoIU/ChineseNLP_ResourceNote
Author：? Wu, Junchao

開源Python庫

專案	地址	簡介
jieba分詞	https://github.com/fxsjy/jieba	中文分詞庫
中文資訊抽取工具	https://github.com/fighting41love/cocoNLP	從中文文字資料中抽取出結構化的資訊，如時間、手機號、運營商、郵箱、地址、人名、身份證
LTP（Language Technology Platform）	https://github.com/HIT-SCIR/ltp	提供了一系列中文自然語言處理工具，使用者可以使用這些工具對於中文文字進行分詞、詞性標註、句法分析等等工作
中文地址提取工具	https://github.com/shibing624/addressparser	支援中國三級區劃地址（省、市、區）提取和級聯對映，支援地址目的地熱力圖繪製。適配python2和python3
中文公司名稱分詞工具	https://github.com/shibing624/companynameparser	支援公司名稱中的地名，品牌名（主詞），行業詞，公司名字尾提取
漢字數字(中文數字)-阿拉伯數字轉換工具	https://github.com/Wall-ee/chinese2digits	是一個將中文數字（大寫數字）轉化為阿拉伯數字的工具
HarvestText	https://github.com/blmoistawinde/HarvestText	是一個專注無（弱）監督方法，能夠整合領域知識（如型別，別名）對特定領域文字進行簡單高效地處理和分析的庫。適用於許多文字預處理和初步探索性分析任務，在小說分析，網路文字，專業文獻等領域都有潛在應用價值

知識圖譜相關

專案	地址	簡介
文件圖譜資訊視覺化	https://github.com/liuhuanyong/TextGrapher	輸入一篇文件，將文件進行關鍵資訊提取，進行結構化，並最終組織成圖譜組織形式，形成對文章語義資訊的圖譜化展示。
京東GoodsKG	https://github.com/liuhuanyong/ProductKnowledgeGraph	基於京東網站的商品上下級概念，商品品牌之間關係，商品描述維度等知識庫，基於該知識庫可以支援商品屬性庫構建，商品銷售問答，品牌物品生產等知識查詢服務，也可用於情感分析等下游應用．
思知知識圖譜	https://github.com/ownthink/KnowledgeGraphData	史上最大規模1.4億中文知識圖譜開源下載，知識圖譜，通用知識圖譜，融合了兩千五百多萬的實體，擁有億級別的實體屬性關係。
stock-knowledge-graph	https://github.com/lemonhu/stock-knowledge-graph	（neo4j）利用網路上公開的資料構建一個小型的證券知識圖譜/知識庫
事件三元組抽取	https://github.com/liuhuanyong/EventTriplesExtraction	基於依存句法與語義角色標註的事件三元組抽取，可用於文字理解如文件主題鏈，事件線等應用。內建LTP、百度DDParser和規則模版的三種抽取方式
中文人物知識圖譜構建	https://github.com/liuhuanyong/PersonRelationKnowledgeGraph	中文人物關係知識圖譜專案,內容包括中文人物關係圖譜構建,基於知識庫的資料回標,基於遠端監督與bootstrapping方法的人物關係抽取,基於知識圖譜的知識問答等應用.
awesome-knowledge-graph	https://github.com/husthuke/awesome-knowledge-graph	整理知識圖譜相關學習資料，提供系統化的知識圖譜學習路徑。

語料&資料集

專案	地址	簡介
ChineseNlpCorpus	https://github.com/SophonPlus/ChineseNlpCorpus	蒐集、整理、釋出中文自然語言處理語料/資料集, 包含情感/觀點/評論傾向性分析、中文命名實體識別、推薦系統、FAQ 問答系統多個領域的資料集
公司名語料庫（Company-Names-Corpus）	https://github.com/wainshine/Company-Names-Corpus	公司名語料庫。機構名語料庫。公司簡稱,縮寫,品牌詞,企業名。可用於中文分詞、機構名實體識別。
微信公眾號語料庫	https://github.com/nonamestreet/weixin_public_corpus	部分網路抓取的微信公眾號的文章，已經去除HTML，只包含了純文字。
百度知道問答語料庫	https://github.com/liuhuanyong/MiningZhiDaoQACorpus	百度知道問答語料庫，包括超過580萬的問題，938萬的答案，5800個分類標籤。基於該問答語料庫，可支援多種應用，如閒聊問答，邏輯挖掘。
多語言音訊資料	https://voice.mozilla.org/en/datasets	多種語言音訊資料，包括來自42,000名貢獻者超過1,400小時的語音樣本，涵github
中文突發事件語料庫	https://github.com/shijiebei2009/CEC-Corpus	中文突發事件語料庫是由上海大學（語義智慧實驗室）所構建。根據國務院頒佈的《國家突發公共事件總體應急預案》的分類體系，從網際網路上收集了5類（地震、火災、交通事故、恐怖襲擊和食物中毒）突發事件的新聞報導作為生語料，然後再對生語料進行文字預處理、文字分析、事件標註以及一致性檢查等處理，最後將標註結果儲存到語料庫中，CEC合計332篇。
dh_msra	下載地址	5 萬多條中文命名實體識別標註資料（包括地點、機構、人物）

詞表

專案	地址	簡介
multistop	https://github.com/hidadeng/multistop	停用詞表，支援中英法德等15種語言

其他可能有幫助的研究

專案	地址	簡介
事理知識抽取研究	https://github.com/liuhuanyong/ComplexEventExtraction	中文複合事件抽取，包括條件事件、因果事件、順承事件、反轉事件等事件抽取，並形成事理圖譜。
領域情感詞典構建	https://github.com/hidadeng/wordexpansion	使用SO_PMI互資訊演算法簡單快速構建不同領域(手機、汽車等)的專業情感詞典

有什麼問題請致郵：wujunchaoIU@outlook.com,我會第一時間為你解答

有趣的自然語言處理資源集錦
2018-11-22
自然語言處理
python自然語言處理學習筆記（八）—— 句法分析
2018-11-06
Python自然語言處理筆記
12 種自然語言處理的開源工具
2020-02-25
自然語言處理開源工具
自然語言處理（NLP）系列（一）——自然語言理解（NLU）
2023-02-01
自然語言處理
自然語言處理NLP（四）
2018-10-03
自然語言處理
自然語言處理(NLP)概述
2018-08-11
自然語言處理
HanLP 自然語言處理 for nodejs
2019-04-24
HanLP自然語言處理NodeJS
目前常用的自然語言處理開源專案/開發包大彙總
2018-11-26
自然語言處理
[譯] 自然語言處理真是有趣！
2018-08-10
自然語言處理
自然語言處理:分詞方法
2018-03-29
自然語言處理分詞
免費資源列表：想學自然語言處理的打包帶走！
2018-10-09
自然語言處理
語義理解和研究資源是自然語言處理的兩大難題
2019-09-19
自然語言處理
自然語言處理NLP快速入門
2018-10-24
自然語言處理
配置Hanlp自然語言處理進階
2018-12-07
HanLP自然語言處理
自然語言處理的最佳實踐
2019-10-28
自然語言處理
自然語言處理之jieba分詞
2020-08-18
自然語言處理Jieba分詞
人工智慧 (06) 自然語言處理
2019-12-19
人工智慧自然語言處理
自然語言處理與情緒智慧
2024-08-25
自然語言處理
Pytorch系列:（六）自然語言處理NLP
2021-05-21
PyTorch自然語言處理
自然語言處理背後的資料科學
2019-04-29
自然語言處理資料科學
精通Python自然語言處理 2 ：統計語言建模
2018-05-28
Python自然語言處理
中國語文（自然語言處理）作業
2024-08-22
自然語言處理
自然語言處理中的語言模型預訓練方法
2018-10-22
自然語言處理模型
自然語言處理NLP（6）——詞法分析
2019-02-26
自然語言處理詞法分析
自然語言處理怎麼最快入門？
2018-11-28
自然語言處理
精通Python自然語言處理 1 ：字串操作
2018-05-28
Python自然語言處理字串
深度解析自然語言處理之篇章分析
2023-11-08
自然語言處理
自然語言處理（NLP）路線圖 - kdnuggets
2020-11-08
自然語言處理
人工智慧--自然語言處理簡介
2024-11-08
人工智慧自然語言處理
探索自然語言處理：語言模型的發展與應用
2024-03-13
自然語言處理模型
專業貼：100+個自然語言處理資料集
2018-04-30
自然語言處理
自然語言處理(NLP)簡介 | NLP課程
2019-03-08
自然語言處理
自然語言處理技術詳細概覽
2019-01-17
自然語言處理
【自然語言處理篇】--Chatterbot聊天機器人
2018-07-10
自然語言處理機器人
精通Python自然語言處理 3 ：形態學
2018-05-28
Python自然語言處理
hanlp自然語言處理包的基本使用--python
2018-09-28
HanLP自然語言處理Python
自然語言處理之序列標註問題
2024-03-19
自然語言處理
《Python自然語言處理實戰》連結表
2020-10-23
Python自然語言處理

自然語言處理常用資源筆記分享

開源Python庫

知識圖譜相關

語料&資料集

詞表

其他可能有幫助的研究

相關文章