從語言建模到隱馬爾可夫模型:一文詳述計算語言學

思源發表於2017-09-21

計算語言學(computational linguistics)是一門跨學科的研究領域,它試圖找出自然語言的規律,建立運算模型,最終讓電腦能夠像人類般分析、理解和處理自然語言。


過去,計算語言學的研究一般由專門負責利用電腦處理自然語言的電腦科學家進行。由於近年的研究顯示人類語言的複雜性超乎想象,現在的計算語言學研究多由來自不同學科的專家共同進行。一般來說,研究隊伍的成員有電腦科學家、語言學家、語言專家(熟悉有關研究專案所要處理的語言的人),以至研究人工智慧、認知心理學、數學、邏輯學等的專家。

本文為大家介紹一篇全面概述計算語言學的論文,希望能有助於各位讀者全面瞭解計算語言學。以下是該論文的目錄,機器之心將簡要介紹該論文所涉及到的五個主題,即語言建模與概率、機器翻譯、序列標註與隱馬爾可夫模型、解析與 PCFG、主題模型與 PLSA 和 Gibbs 取樣,幾乎每章都有程式設計任務和習題。該論文在最初是 13 年釋出的,但 16 年進行了許多修正與更新。

論文地址:http://cs.brown.edu/courses/csci2951-k/papers/cl-intro.pdf

從語言建模到隱馬爾可夫模型:一文詳述計算語言學

下文將分章節提供更新後的簡介與地址:

第一章:語言建模與概率論

章節地址:https://cs.brown.edu/courses/csci1460/assets/files/langmod.pdf

實際上概率方法在現代計算語言學中是十分普遍的,該論文所有討論的方法和主題都是是基於或涉及到各種各樣的概率模型。本章節主要是希望能提供這些最基本的概率論知識,併為其它章節打下堅實的基礎。實際上,本論文所述的各種語言模型都需要一定的概率論基礎,但這些概率論基礎只需要最簡單的概念和公式就行。更加具體的概率論請查閱概率論相關書籍。

本章介紹了概率、一元文字建模、上下文依賴和 n 元語言模型。

第二章:機器翻譯

章節地址:https://cs.brown.edu/courses/csci1460/assets/files/mt.pdf

統計機器翻譯背後的概念十分簡單,假定我們翻譯中文和英文,那麼我們首先需要一組中英平行語料庫,即語料庫中的中文句和英文句之間的距離非常短,然後我們使用這一些語料庫對兩種語言進行概率建模,最後在進行預測的時候只需要選擇概率最大的語句作為譯文就完成了翻譯。

本章介紹了機器翻譯的基本原理、IBM Model 1 和 Model 2、基於短語的機器翻譯和解碼。不過本章節沒有介紹機器翻譯的深度學習方法,比如說 RNN、LSTM、注意力機制等,但仍然非常有助於初學者系統地瞭解統計機器翻譯。

第三章:序列標註與隱馬爾可夫模型

章節地址:https://cs.brown.edu/courses/csci1460/assets/files/hmm.pdf

序列標註問題即給定一個長度為 n 的序列 x=(x_1, . . . , x_n),還有長度為 n 的輸出序列 y = (y_1, . . . , y_n),其中 y_i ∈ Y 為 x_i 的標註。很多語言處理任務都是採用的這種框架,因此序列標註問題在計算語言學中佔據十分重要的地位。

本章我們介紹了隱馬爾可夫模型(HMM),一種適合這類任務的非常優雅的技術。HMM 首先用於語音識別,i 是對時間的度量。

隱馬爾可夫模型(Hidden Markov model):顯馬爾可夫過程是完全確定性的——一個給定的狀態經常會伴隨另一個狀態。交通訊號燈就是一個例子。相反,隱馬爾可夫模型通過分析可見資料來計算隱藏狀態的發生。隨後,藉助隱藏狀態分析,隱馬爾可夫模型可以估計可能的未來觀察模式。在本例中,高或低氣壓的概率(這是隱藏狀態)可用於預測晴天、雨天、多雲天的概率。

  • 優點:容許資料的變化性,適用於識別(recognition)和預測操作
  • 場景舉例:面部表情分析、氣象預測

本章介紹了隱馬爾可夫模型、most likely label 和維特比解碼、如何使用 HMM 確定序列概率、後向概率、評估 HMM 引數、前向-後向演算法中的 MT 引數、使用 HMM 的平滑(smoothing)演算法、詞性歸納(part-of-speech induction)。

第四章:解析與 PCFG

章節地址:https://cs.brown.edu/courses/csci1460/assets/files/parsing.pdf

在自然語言,如英語中,詞與詞連線起來構成片語,片語和片語連線起來構成新的片語。例如,在句子「Sam thinks Sandy likes the book」中,單詞「the」和「book」結合起來構成了名詞片語(NP)「the book」,「the book」又和動詞「like」連線起來構成了動詞片語(VP)「likes the book」,它與「Sandy」連線起來構成了嵌入句或語句(S)「Sandy likes the book」。本章的主題就是解析——從單詞串中發現某種結構。

本章首先介紹了短語結構樹和依賴樹,然後介紹概率上下文無關語法(PCFG),以及使用 PCFG 進行解析和如何評估 PCFG,之後介紹了 scoring parser。本章還介紹了評估 treebank 中較好的語法以及如何對 A 解析器進行程式設計。

第五章:主題模型與 PLSA 和 Gibbs 取樣

章節地址:https://cs.brown.edu/courses/csci1460/assets/files/topicmod.pdf

本章主要介紹主題模型,寫出獲取概念「aboutness」的程式。

本章介紹了主題模型、概率潛在語義分析(PLSA)和學習 PLSA 引數。

主題模型(Topic Model)在機器學習和自然語言處理等領域是用來在一系列文件中發現抽象主題的一種統計模型。直觀來講,如果一篇文章有一箇中心思想,那麼一些特定詞語會更頻繁的出現。比方說,如果一篇文章是在講狗的,那「狗」和「骨頭」等詞出現的頻率會高些。如果一篇文章是在講貓的,那「貓」和「魚」等詞出現的頻率會高些。而有些詞例如「這個」、「和」大概在兩篇文章中出現的頻率會大致相等。但真實的情況是,一篇文章通常包含多種主題,而且每個主題所佔比例各不相同。因此,如果一篇文章 10% 和貓有關,90% 和狗有關,那麼和狗相關的關鍵字出現的次數大概會是和貓相關的關鍵字出現次數的 9 倍。一個主題模型試圖用數學框架來體現文件的這種特點。主題模型自動分析每個文件,統計文件內的詞語,根據統計的資訊來斷定當前文件含有哪些主題,以及每個主題所佔的比例各為多少。主題模型最初是運用於自然語言處理相關方向,但目前已經延伸至生物資訊學等其它領域。(來源:Wikipedia)

相關文章