機器學習的文字摘要方法概述 - kdnuggets

banq發表於2020-11-12

本文將介紹當前採用的文字摘要的主要方法,並討論它們的一些特性。
文字摘要是自然語言處理的一個令人興奮的子學科。儘管每天都在使用各種提取摘要的方法,並且每天都在研究這些方法,但是瞭解以上概念的基礎應該可以使您至少在30,000英尺的高水平上對其中任何一種的操作方式有所瞭解。您還應該可以選擇最近的論文或閱讀最近的實施部落格文章,並確信自己具備進行此項工作所需的基本知識。
 

自動文字摘要技術
 明確地說,當我們說“自動文字摘要”時,我們正在談論使用機器透過某種形式的試探法或統計方法對一個或多個文件進行摘要。在這種情況下,摘要是一段簡短的文字,可以準確地捕獲並傳達我們要摘要的一個或多個文件中包含的最重要和最相關的資訊。如上面所暗示的,當前正在使用許多這些不同的嘗試和真正的自動文字摘要技術。
有幾種方法可以對自動文字摘要技術進行分類。本文將從摘要輸出型別的角度探討這些技術。在這方面,有兩種技術:提取技術和抽象技術。

  1. 提取性文字摘要方法,作用是,從文字中識別出重要的句子或摘錄,並逐字複製它們作為摘要的一部分。沒有新的文字生成;摘要過程中僅使用現有文字。
  2. 抽象文字摘要方法,採用更強大的自然語言處理技術來解釋文字並生成新的摘要文字,這與選擇最具代表性的現有摘錄來執行摘要相反。

儘管兩種方法都是有效的文字摘要方法,但應該不難說服您抽象技術的實現要困難得多。實際上,當今大多數彙總過程都是基於提取的。這並不意味著抽象方法應該被輕視或忽略。相反,研究它們的實現以及對人類語言的真正語義理解是一項值得追求的工作,在我們可以自信地說我們已經在這一努力中立足之前,還需要做大量工作。
出於這個原因,本文的其餘部分將重點介紹提取文字摘要的具體內容及其不同的實現技術。
 

提取摘要
 提取摘要技術各不相同,但它們共有相同的基本任務:

  1. 構造輸入文字(要彙總的文字)的中間表示
  2. 根據構造的中間表示對句子評分
  3. 選擇一個由前k個最重要的句子 組成的摘要

任務2和3非常簡單;在句子評分中,我們要確定每個句子在彙總摘要文字的重要方面時的表現如何,同時使用某些特定的最佳化方法來執行句子選擇。這兩個步驟中每個步驟的演算法可能會有所不同,但是從概念上講它們非常簡單:使用某種度量為每個句子分配分數,然後透過定義明確的句子選擇方法從得分最高的句子中進行選擇。
第一項任務是中間表示,可以使用進一步的闡述。
 

Intermediate表示法
在對自然語言進行句子評分和選擇之前,需要先對自然語言有所瞭解,並且為每個句子建立一些中間表示可達到此目的。中間表示法,主題表示法和指示符表示法這兩個主要類別及其子類別在下面簡要定義。

  • 主題表示

重點關注文字主題識別的文字轉換;此方法的主要子類別為:
  1. 頻率驅動的方法
  2. 主題詞法
  3. 潛在語義分析(LSA)
  4. 貝葉斯主題模型-例如潛在的Dirichlet分配(LDA)

兩種最流行的詞頻方法是詞機率和TF-IDF
在主題詞方法中,有兩種方法可以計算句子的重要性:透過其包含的主題簽名數(句子討論的主題數),或者透過句子包含的主題數與主題中包含的主題數的比例文字。這樣,第一個傾向於獎勵較長的句子,而第二個則衡量主題詞的密度。
潛在語義分析和貝葉斯主題模型方法(例如LDA)的說明不在本文討論範圍之內,但可以在上面的連結中進行閱讀。
  • 指標表示

將文字中的每個句子轉換為重要特徵列表;可能的功能包括:
  1. 句子長度
  2. 句子位置
  3. 句子中是否包含特定單詞(有關這種特徵提取方法的示例)
  4. 句子是否包含特定短語

可以使用以下兩種總體指標表示方法之一來使用一組功能來表示文字資料並對其進行排名:圖形方法和機器學習方法。
 
使用圖形表示:
  • 我們發現子圖最終代表了文字中涵蓋的主題
  • 我們可以隔離文字中的重要句子,因為這些重要句子將與更多其他句子聯絡在一起(如果您將句子視為頂點,並且由邊表示的句子相似性)
  • 我們不需要考慮特定於語言的處理,並且相同的方法可以應用於多種語言
  • 我們經常可以發現,透過與圖暴露句相似性獲得的語義資訊可以提高摘要效能,而不僅僅是更簡單的頻率方法

使用機器學習表示形式:
  • 摘要問題被建模為分類問題
  • 我們需要帶標籤的訓練資料來構建分類器,以將句子分類為摘要或非摘要句子
  • 為了解決標籤資料難題,半監督學習等替代方案有望實現
  • 我們發現某些假設句子之間具有依賴性的方法通常勝過其他技術




 

相關文章