自然語言處理（NLP）入門指南

大資料文摘發表於2017-06-19

Melanie Tosik目前就職於旅遊搜尋公司WayBlazer，她的工作內容是透過自然語言請求來生產個性化旅遊推薦路線。回顧她的學習歷程，她為期望入門自然語言處理的初學者列出了一份學習資源清單。

自然語言處理（NLP）入門指南

displaCy網站上的視覺化依賴解析樹

https://demos.explosion.ai/displacy/?text=Great%2C%20this%20is%20just%20what%20I%20needed!&model=en&cpu=1&cph=0

記得我曾經讀到過這樣一段話，如果你覺得有必要回答兩次同樣的問題，那就把答案發到部落格上，這可能是一個好主意。根據這一原則，也為了節省回答問題的時間，我在這裡給出該問題的標準問法：“我的背景是研究**科學，我對學習NLP很有興趣。應該從哪說起呢？”

在您一頭扎進去閱讀本文之前，請注意，下面列表只是提供了非常通用的入門清單（有可能不完整）。為了幫助讀者更好地閱讀，我在括號內新增了簡短的描述並對難度做了估計。最好具備基本的程式設計技能（例如Python）。

線上課程

• Dan Jurafsky 和 Chris Manning：自然語言處理[非常棒的影片介紹系列]

https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269

• 史丹佛CS224d：自然語言處理的深度學習[更高階的機器學習演算法、深度學習和NLP的神經網路架構]

http://cs224d.stanford.edu/syllabus.html

• Coursera：自然語言處理簡介[由密西根大學提供的NLP課程]

https://www.coursera.org/learn/natural-language-processing

圖書館和開放資源

• spaCy（網站，部落格）[Python; 新興的開放原始碼庫並自帶炫酷的用法示例、API文件和演示應用程式]

網站網址：https://spacy.io/

部落格網址：https://explosion.ai/blog/

演示應用網址: https://spacy.io/docs/usage/showcase

• 自然語言工具包（NLTK）（網站，圖書）[Python; NLP實用程式設計介紹，主要用於教學目的]

網站網址：http://www.nltk.org

圖書網址: http://www.nltk.org/book/

• 史丹佛CoreNLP（網站）[由Java開發的高質量的自然語言分析工具包]

網站網址: https://stanfordnlp.github.io/CoreNLP/

活躍的部落格

• 自然語言處理部落格（HalDaumé）

部落格網址：https://nlpers.blogspot.com/

• Google研究部落格

部落格網址：https://research.googleblog.com/

• 語言日誌部落格（Mark Liberman）

部落格網址：http://languagelog.ldc.upenn.edu/nll/

書籍

• 言語和語言處理（Daniel Jurafsky和James H. Martin）[經典的NLP教科書，涵蓋了所有NLP的基礎知識，第3版即將出版]

https://web.stanford.edu/~jurafsky/slp3/

• 統計自然語言處理的基礎（Chris Manning和HinrichSchütze）[更高階的統計NLP方法]

https://nlp.stanford.edu/fsnlp/

• 資訊檢索簡介（Chris Manning，Prabhakar Raghavan和HinrichSchütze）[關於排名/搜尋的優秀參考書]

https://nlp.stanford.edu/IR-book/

• 自然語言處理中的神經網路方法（Yoav Goldberg）[深入介紹NLP的NN方法，和相對應的入門書籍]

https://www.amazon.com/Network-Methods-Natural-Language-Processing/dp/1627052984

入門書籍： http://u.cs.biu.ac.il/~yogo/nnlp.pdf

其它雜項

• 如何在TensorFlow中構建word2vec模型[學習指南]

https://www.tensorflow.org/versions/master/tutorials/word2vec/index.html

• NLP深度學習的資源[按主題分類的關於深度學習的頂尖資源的概述]

https://github.com/andrewt3000/dl4nlp

• 最後一句話：計算語言學和深度學習——論自然語言處理的重要性。（Chris Manning）[文章]

http://mitp.nautil.us/article/170/last-words-computational-linguistics-and-deep-learning

• 對分散式表徵的自然語言的理解（Kyunghyun Cho）[關於NLU的ML / NN方法的獨立講義]

https://github.com/nyu-dl/NLP_DL_Lecture_Note/blob/master/lecture_note.pdf

• 帶淚水的貝葉斯推論（Kevin Knight）[教程工作簿]

http://www.isi.edu/natural-language/people/bayes-with-tears.pdf

• 國際計算語言學協會（ACL）[期刊選集]

http://aclanthology.info/

• 果殼問答網站(Quora)：我是如何學習自然語言處理的？

https://www.quora.com/How-do-I-learn-Natural-Language-Processing

DIY專案和資料集

自然語言處理（NLP）入門指南

資料來源：http://gunshowcomic.com/

• Nicolas Iderhoff已經建立了一份公開的、詳盡的NLP資料集的列表。除了這些，這裡還有一些專案，可以推薦給那些想要親自動手實踐的NLP新手們：

資料集：https://github.com/niderhoff/nlp-datasets

• 基於隱馬爾可夫模型（HMM）實現詞性標註（POS tagging）.

https://en.wikipedia.org/wiki/Part-of-speech_tagging

https://en.wikipedia.org/wiki/Hidden_Markov_model

• 使用CYK演算法執行上下文無關的語法解析

https://en.wikipedia.org/wiki/CYK_algorithm

https://en.wikipedia.org/wiki/Context-free_grammar

• 在文字集合中，計算給定兩個單詞之間的語義相似度，例如點互資訊（PMI，Pointwise Mutual Information）

https://en.wikipedia.org/wiki/Semantic_similarity

https://en.wikipedia.org/wiki/Pointwise_mutual_information

• 使用樸素貝葉斯分類器來過濾垃圾郵件

https://en.wikipedia.org/wiki/Naive_Bayes_classifier

https://en.wikipedia.org/wiki/Naive_Bayes_spam_filtering

• 根據單詞之間的編輯距離執行拼寫檢查

https://en.wikipedia.org/wiki/Spell_checker

https://en.wikipedia.org/wiki/Edit_distance

• 實現一個馬爾科夫鏈文字生成器

https://en.wikipedia.org/wiki/Markov_chain

• 使用LDA實現主題模型

https://en.wikipedia.org/wiki/Topic_model

https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation

• 使用word2vec從大型文字語料庫，例如維基百科，生成單詞嵌入。

https://code.google.com/archive/p/word2vec/

https://en.wikipedia.org/wiki/Wikipedia:Database_download

NLP在社交媒體上

• Twitter：#nlproc，NLPers上的文章列表（由Jason Baldrige提供）

https://twitter.com/hashtag/nlproc

https://twitter.com/jasonbaldridge/lists/nlpers

• Reddit 社交新聞站點：/r/LanguageTechnology

https://www.reddit.com/r/LanguageTechnology

• Medium釋出平臺：Nlp

https://medium.com/tag/nlp

原文連結：

https://medium.com/towards-data-science/how-to-get-started-in-nlp-6a62aa4eaeff

授權轉載自資料派THU

ID：DatapiTHU

作者：Melanie Tosik

翻譯：閔黎

校對：丁楠雅

自然語言處理NLP快速入門
2018-10-24
自然語言處理
自然語言處理(NLP)
2016-11-16
自然語言處理
自然語言處理(NLP)概述
2018-08-11
自然語言處理
自然語言處理NLP（四）
2018-10-03
自然語言處理
2023nlp影片教程大全 NLP自然語言處理教程自然語言處理NLP從入門到專案實戰
2023-05-05
自然語言處理
自然語言處理（NLP）系列（一）——自然語言理解（NLU）
2023-02-01
自然語言處理
自然語言處理(NLP)簡介 | NLP課程
2019-03-08
自然語言處理
自然語言處理怎麼最快入門？
2018-11-28
自然語言處理
自然語言處理NLP（6）——詞法分析
2019-02-26
自然語言處理詞法分析
Pytorch系列:（六）自然語言處理NLP
2021-05-21
PyTorch自然語言處理
自然語言處理（NLP）的主要範疇
2017-03-15
自然語言處理
自然語言處理（NLP）路線圖 - kdnuggets
2020-11-08
自然語言處理
NLP漢語自然語言處理入門基礎知識
2018-10-31
自然語言處理
入門自然語言處理必看：圖解詞向量
2019-08-28
自然語言處理圖解
Python 自然語言處理（NLP）工具庫彙總
2015-07-31
Python自然語言處理
掌握BERT：從初學者到高階的自然語言處理（NLP）全面指南
2024-07-09
自然語言處理
中文和英文NLP自然語言處理異同點分析
2019-03-20
自然語言處理
NLP自然語言處理中的hanlp分詞例項
2019-02-18
自然語言處理HanLP分詞
Python自然語言處理實戰（1）：NLP基礎
2018-07-14
Python自然語言處理
NLP1 —— Python自然語言處理環境搭建
2017-09-21
Python自然語言處理
NLP神經語言學的12條假設（不是自然語言處理哪個NLP哈）
2018-09-30
自然語言處理
NLP漢語自然語言處理入門基礎知識介紹
2019-01-04
自然語言處理
《NLP漢語自然語言處理原理與實踐》學習四
2018-09-14
自然語言處理
「NLP」一文彙總自然語言處理主要研究方向
2020-03-13
自然語言處理
自然語言處理NLP（8）——句法分析b：完全句法分析
2019-03-22
自然語言處理
自然語言處理（NLP）- 一個英文拼寫糾錯系統
2018-12-20
自然語言處理
自然語言處理入門 - olay
2021-07-14
自然語言處理
Python自然語言處理
2015-01-20
Python自然語言處理
自然語言處理 NLP 基本概念大全，讓非技術也能看懂 NLP
2019-09-20
自然語言處理
史丹佛NLP團隊釋出最新自然語言處理Python庫
2019-02-08
自然語言處理Python
聊天機器人（Chatbot）開發：自然語言處理（NLP）技術棧
2017-12-15
機器人自然語言處理
Python自然語言處理 1 語言處理與Python
2017-11-17
Python自然語言處理
Python自然語言處理入門
2016-05-14
Python自然語言處理
HanLP 自然語言處理 for nodejs
2019-04-24
HanLP自然語言處理NodeJS
[譯] 自然語言處理真是有趣！
2018-08-10
自然語言處理
自然語言處理:分詞方法
2018-03-29
自然語言處理分詞
自然語言處理與分析(one)
2014-03-24
自然語言處理
NLP 與 NLU：從語言理解到語言處理
2019-05-31

自然語言處理（NLP）入門指南

相關文章