常用文字挖掘/NLP 演算法彙總
常用文字挖掘/NLP 演算法彙總
WORD2VEC GLOVE FASTTEXT DOC2VEC
TFIDF PLSA LDA HMM CRF
DSSM BERT TRANSFORMER TEXTRANK SEQ2SEQ LSTM BILSTM TEXTCNN CRNN RCNN
1.
文字聚類
方法1 tfidf+ kmeans/gmm 機器學習方法
方法2 word2vec+kmeans 機器學習方法
方法3 tfidf+lda 機器學習方法
2.文字分類
方法1: tfidf+svm/lr 機器學習方法
方法2: tfidf + textcnn/fasttext/crnn 深度學習方法
3.文字摘要:
seq2seq
textrank
4.詞性標註開源工具,參考如下使用
1.推薦哈工大的 https://github.com/HIT-SCIR/ltp 支援python / java / c++
英文的話推薦https://github.com/explosion/spaCy 並繼續關注spacy的中文版的開發情況https://github.com/howl-anderson/Chinese_models_for_SpaCy
5.文字近義詞:
1.word2vec
- THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。THULAC具有如下幾個特點:
能力強。利用我們整合的目前世界上規模最大的人工分詞和詞性標註中文語料庫(約含5800萬字)訓練而成,模型標註能力強大。
準確率高。該工具包在標準資料集Chinese Treebank(CTB5)上分詞的F1值可達97.3%,詞性標註的F1值可達到92.9%,與該資料集上最好方法效果相當。
速度較快。同時進行分詞和詞性標註速度為300KB/s,每秒可處理約15萬字。只進行分詞速度可達到1.3MB/s。
軟體地址:
http://thulac.thunlp.org/
- stanford NLP
4.nltk
6.Bert學習
7.PyTorch 研究學習
NLP
1應用層面:聊天機器人,文字聚類/分類, 機器翻譯 ,自動摘要。找到相關課程研究學習
2.理論層面:秦曾昌NLP,天善智慧NLP,煉數成金NLP 七月線上NLP 宗老師nlp
8.文件排序
lda/kmeans + dssm
相關文章
- 常用js彙總JS
- Java常用的7大排序演算法彙總Java排序演算法
- 常用函式彙總函式
- Oracle 常用方法彙總Oracle
- 常用SQL技巧彙總SQL
- 中文文字挖掘預處理流程總結
- 英文文字挖掘預處理流程總結
- Excel常用快捷鍵彙總Excel
- MySQL常用函式彙總MySql函式
- 常用壓縮命令彙總
- PHP 常用函式彙總PHP函式
- css常用屬性彙總CSS
- My SQL常用操作彙總SQL
- oracle 常用語句彙總Oracle
- 常用解決方案彙總
- oracle常用函式彙總Oracle函式
- 常用SQL語句彙總SQL
- 常用的vi指令彙總
- MySql 常用語法彙總MySql
- AA常用函式彙總函式
- 常用工具彙總
- 【文字挖掘】(三)文字表示
- 【挖掘篇】:文字分析
- 【NLP】文字情感分析
- Python 自然語言處理(NLP)工具庫彙總Python自然語言處理
- Mysql常用命令彙總MySql
- 常用免費好用API彙總API
- 面試常用的shell命令彙總面試
- 陣列常用函式彙總陣列函式
- Solr/Elasticsearch常用資源彙總SolrElasticsearch
- 【Linq】常用語法彙總
- npm常用命令彙總NPM
- Kendo UI常用示例彙總(二十)UI
- Kendo UI常用示例彙總(十九)UI
- 常用符號的英文彙總符號
- WordPress模板常用函式彙總函式
- mysql常用函式彙總(分享)MySql函式
- 表空間常用sql彙總SQL