常用文字挖掘/NLP 演算法彙總

WORD2VEC GLOVE FASTTEXT DOC2VEC

TFIDF PLSA LDA HMM CRF

DSSM BERT TRANSFORMER TEXTRANK SEQ2SEQ LSTM BILSTM TEXTCNN CRNN RCNN

1.

文字聚類

方法1 tfidf+ kmeans/gmm 機器學習方法

方法2 word2vec+kmeans 機器學習方法

方法3 tfidf+lda 機器學習方法

2.文字分類

方法1： tfidf+svm/lr 機器學習方法

方法2: tfidf + textcnn/fasttext/crnn 深度學習方法

3.文字摘要：

seq2seq

textrank

4.詞性標註開源工具，參考如下使用

1.推薦哈工大的 https://github.com/HIT-SCIR/ltp 支援python / java / c++

英文的話推薦https://github.com/explosion/spaCy 並繼續關注spacy的中文版的開發情況https://github.com/howl-anderson/Chinese_models_for_SpaCy

5.文字近義詞：

1.word2vec

THULAC（THU Lexical Analyzer for Chinese）由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包，具有中文分詞和詞性標註功能。THULAC具有如下幾個特點：

能力強。利用我們整合的目前世界上規模最大的人工分詞和詞性標註中文語料庫（約含5800萬字）訓練而成，模型標註能力強大。

準確率高。該工具包在標準資料集Chinese Treebank（CTB5）上分詞的F1值可達97.3％，詞性標註的F1值可達到92.9％，與該資料集上最好方法效果相當。

速度較快。同時進行分詞和詞性標註速度為300KB/s，每秒可處理約15萬字。只進行分詞速度可達到1.3MB/s。

軟體地址：

http://thulac.thunlp.org/

4.nltk

6.Bert學習

7.PyTorch 研究學習

NLP

1應用層面：聊天機器人，文字聚類/分類, 機器翻譯，自動摘要。找到相關課程研究學習

2.理論層面：秦曾昌NLP，天善智慧NLP，煉數成金NLP 七月線上NLP 宗老師nlp

8.文件排序

lda/kmeans + dssm

相關文章