機器學習的文字摘要方法概述 - kdnuggets
本文將介紹當前採用的文字摘要的主要方法,並討論它們的一些特性。
文字摘要是自然語言處理的一個令人興奮的子學科。儘管每天都在使用各種提取摘要的方法,並且每天都在研究這些方法,但是瞭解以上概念的基礎應該可以使您至少在30,000英尺的高水平上對其中任何一種的操作方式有所瞭解。您還應該可以選擇最近的論文或閱讀最近的實施部落格文章,並確信自己具備進行此項工作所需的基本知識。
自動文字摘要技術
明確地說,當我們說“自動文字摘要”時,我們正在談論使用機器透過某種形式的試探法或統計方法對一個或多個文件進行摘要。在這種情況下,摘要是一段簡短的文字,可以準確地捕獲並傳達我們要摘要的一個或多個文件中包含的最重要和最相關的資訊。如上面所暗示的,當前正在使用許多這些不同的嘗試和真正的自動文字摘要技術。
有幾種方法可以對自動文字摘要技術進行分類。本文將從摘要輸出型別的角度探討這些技術。在這方面,有兩種技術:提取技術和抽象技術。
- 提取性文字摘要方法,作用是,從文字中識別出重要的句子或摘錄,並逐字複製它們作為摘要的一部分。沒有新的文字生成;摘要過程中僅使用現有文字。
- 抽象文字摘要方法,採用更強大的自然語言處理技術來解釋文字並生成新的摘要文字,這與選擇最具代表性的現有摘錄來執行摘要相反。
儘管兩種方法都是有效的文字摘要方法,但應該不難說服您抽象技術的實現要困難得多。實際上,當今大多數彙總過程都是基於提取的。這並不意味著抽象方法應該被輕視或忽略。相反,研究它們的實現以及對人類語言的真正語義理解是一項值得追求的工作,在我們可以自信地說我們已經在這一努力中立足之前,還需要做大量工作。
出於這個原因,本文的其餘部分將重點介紹提取文字摘要的具體內容及其不同的實現技術。
提取摘要
提取摘要技術各不相同,但它們共有相同的基本任務:
- 構造輸入文字(要彙總的文字)的中間表示
- 根據構造的中間表示對句子評分
- 選擇一個由前k個最重要的句子 組成的摘要
任務2和3非常簡單;在句子評分中,我們要確定每個句子在彙總摘要文字的重要方面時的表現如何,同時使用某些特定的最佳化方法來執行句子選擇。這兩個步驟中每個步驟的演算法可能會有所不同,但是從概念上講它們非常簡單:使用某種度量為每個句子分配分數,然後透過定義明確的句子選擇方法從得分最高的句子中進行選擇。
第一項任務是中間表示,可以使用進一步的闡述。
Intermediate表示法
在對自然語言進行句子評分和選擇之前,需要先對自然語言有所瞭解,並且為每個句子建立一些中間表示可達到此目的。中間表示法,主題表示法和指示符表示法這兩個主要類別及其子類別在下面簡要定義。
- 主題表示
重點關注文字主題識別的文字轉換;此方法的主要子類別為:
- 頻率驅動的方法
- 主題詞法
- 潛在語義分析(LSA)
- 貝葉斯主題模型-例如潛在的Dirichlet分配(LDA)
兩種最流行的詞頻方法是詞機率和TF-IDF。
在主題詞方法中,有兩種方法可以計算句子的重要性:透過其包含的主題簽名數(句子討論的主題數),或者透過句子包含的主題數與主題中包含的主題數的比例文字。這樣,第一個傾向於獎勵較長的句子,而第二個則衡量主題詞的密度。
潛在語義分析和貝葉斯主題模型方法(例如LDA)的說明不在本文討論範圍之內,但可以在上面的連結中進行閱讀。
- 指標表示
將文字中的每個句子轉換為重要特徵列表;可能的功能包括:
- 句子長度
- 句子位置
- 句子中是否包含特定單詞(有關這種特徵提取方法的示例)
- 句子是否包含特定短語
可以使用以下兩種總體指標表示方法之一來使用一組功能來表示文字資料並對其進行排名:圖形方法和機器學習方法。
使用圖形表示:
- 我們發現子圖最終代表了文字中涵蓋的主題
- 我們可以隔離文字中的重要句子,因為這些重要句子將與更多其他句子聯絡在一起(如果您將句子視為頂點,並且由邊表示的句子相似性)
- 我們不需要考慮特定於語言的處理,並且相同的方法可以應用於多種語言
- 我們經常可以發現,透過與圖暴露句相似性獲得的語義資訊可以提高摘要效能,而不僅僅是更簡單的頻率方法
使用機器學習表示形式:
- 摘要問題被建模為分類問題
- 我們需要帶標籤的訓練資料來構建分類器,以將句子分類為摘要或非摘要句子
- 為了解決標籤資料難題,半監督學習等替代方案有望實現
- 我們發現某些假設句子之間具有依賴性的方法通常勝過其他技術
相關文章
- 終於有人把機器學習中的文字摘要解釋清楚了!機器學習
- 什麼是機器學習MLOps? - kdnuggets機器學習
- 如何建立企業級別的機器學習模型伺服器?- kdnuggets機器學習模型伺服器
- 資料科學家與機器學習工程師的區別? - kdnuggets資料科學機器學習工程師
- 當深度學習遇見自動文字摘要深度學習
- Java可以用於機器學習和資料科學嗎? - kdnuggetsJava機器學習資料科學
- 資料科學家會被機器學習工程師取代嗎? - KDnuggets資料科學機器學習工程師
- Python機器學習筆記:SVM(1)——SVM概述Python機器學習筆記
- 機器學習 第6篇:線性模型概述機器學習模型
- 如何使用MLOps將機器學習自動推向生產環境? - kdnuggets機器學習
- 深度學習用於文字摘要的論文及程式碼集錦深度學習
- Python利用深度學習進行文字摘要的綜合指南(附教程)Python深度學習
- 如何用機器學習對文字分類機器學習文字分類
- 機器學習之迭代方法機器學習
- Feature Store將成為機器學習與資料工程的基礎架構 - KDnuggets機器學習架構
- 強化學習入門 -KDnuggets強化學習
- 深度學習模型壓縮方法概述深度學習模型
- 文字摘要簡述
- 機器學習框架ML.NET學習筆記【3】文字特徵分析機器學習框架筆記特徵
- 機器學習/深度學習書單推薦及學習方法機器學習深度學習
- 學習中遇到的擴充摘要
- 開源一個機器學習文字分析專案機器學習
- 文字自動摘要:基於TextRank的中文新聞摘要
- Azure - 機器學習企業級服務概述與介紹機器學習
- 機器學習問題方法總結機器學習
- 機器學習方法(一)——梯度下降法機器學習梯度
- 機器學習 拜占庭容錯方法: Bulyan機器學習
- 文字摘要論文列表
- 【機器學習】機器學習簡介機器學習
- 【火爐煉AI】機器學習039-NLP文字分類器AI機器學習文字分類
- 文字分類:Keras+RNN vs傳統機器學習文字分類KerasRNN機器學習
- 比啃西瓜書更高效的“機器學習”方法機器學習
- 機器學習中的元學習機器學習
- 12 月機器學習新書:《可解釋機器學習方法的侷限》,免費下載!機器學習新書
- 13 種機器學習演算法概述(附 Python、R 程式碼)機器學習演算法Python
- 機器學習 第4篇:sklearn 最鄰近演算法概述機器學習演算法
- 乾貨|當深度學習遇見自動文字摘要,seq2seq+attention深度學習
- CSS學習摘要-定位例項CSS