常用文字挖掘/NLP 演算法彙總
常用文字挖掘/NLP 演算法彙總
WORD2VEC GLOVE FASTTEXT DOC2VEC
TFIDF PLSA LDA HMM CRF
DSSM BERT TRANSFORMER TEXTRANK SEQ2SEQ LSTM BILSTM TEXTCNN CRNN RCNN
1.
文字聚類
方法1 tfidf+ kmeans/gmm 機器學習方法
方法2 word2vec+kmeans 機器學習方法
方法3 tfidf+lda 機器學習方法
2.文字分類
方法1: tfidf+svm/lr 機器學習方法
方法2: tfidf + textcnn/fasttext/crnn 深度學習方法
3.文字摘要:
seq2seq
textrank
4.詞性標註開源工具,參考如下使用
1.推薦哈工大的 https://github.com/HIT-SCIR/ltp 支援python / java / c++
英文的話推薦https://github.com/explosion/spaCy 並繼續關注spacy的中文版的開發情況https://github.com/howl-anderson/Chinese_models_for_SpaCy
5.文字近義詞:
1.word2vec
- THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。THULAC具有如下幾個特點:
能力強。利用我們整合的目前世界上規模最大的人工分詞和詞性標註中文語料庫(約含5800萬字)訓練而成,模型標註能力強大。
準確率高。該工具包在標準資料集Chinese Treebank(CTB5)上分詞的F1值可達97.3%,詞性標註的F1值可達到92.9%,與該資料集上最好方法效果相當。
速度較快。同時進行分詞和詞性標註速度為300KB/s,每秒可處理約15萬字。只進行分詞速度可達到1.3MB/s。
軟體地址:
http://thulac.thunlp.org/
- stanford NLP
4.nltk
6.Bert學習
7.PyTorch 研究學習
NLP
1應用層面:聊天機器人,文字聚類/分類, 機器翻譯 ,自動摘要。找到相關課程研究學習
2.理論層面:秦曾昌NLP,天善智慧NLP,煉數成金NLP 七月線上NLP 宗老師nlp
8.文件排序
lda/kmeans + dssm
相關文章
- Oracle 常用方法彙總Oracle
- 常用函式彙總函式
- Git 常用操作彙總Git
- My SQL常用操作彙總SQL
- 【Linq】常用語法彙總
- Excel常用快捷鍵彙總Excel
- 常用壓縮命令彙總
- MySQL常用函式彙總MySql函式
- AA常用函式彙總函式
- MySql 常用語法彙總MySql
- 常用工具彙總
- PHP 常用函式彙總PHP函式
- 【文字挖掘】(三)文字表示
- 文字串接問題彙總字串
- es6常用方法彙總
- Android Studio常用快捷鍵彙總Android
- npm常用命令彙總NPM
- MogDB openGauss常用查詢彙總
- 常用免費好用API彙總API
- linux 常用命令彙總Linux
- Pytorch常用程式碼段彙總PyTorch
- ffmpeg常用命令彙總
- Mysql常用命令彙總MySql
- 陣列常用函式彙總陣列函式
- MySQL 常用命令彙總MySql
- Mysql 常用函式(1)- 常用函式彙總MySql函式
- 【NLP】文字情感分析
- JPA常用註解彙總紀要
- MongoDB常用命令彙總(一)MongoDB
- js 常用工具方法彙總JS
- Android常用開源庫整理彙總Android
- 面試常用的shell命令彙總面試
- 那些常用的設計模式彙總設計模式
- ES6 常用知識彙總
- 解壓命令unzip常用方法彙總
- MySQL sys庫常用SQL彙總大全MySql
- 【Git】git常用命令彙總Git
- 工作、生活免費常用API彙總API