文件摘要自動提取演算法——抽取式

bigface1234fdfg發表於2015-02-09

文件摘要自動提取演算法——抽取式

    

    自動提取文件摘要的演算法,主流方法分為兩類:Extractive 抽取式、Abstractive 概要式。這篇我們主要將抽取式。


抽取式:

    從原始文件集中抽取一些具有代表性的文字片段構成摘要,這些片段可以是整個文件中的句子、子句、段落或者小節。

    抽取式方法有兩個問題,如何對文字單元排序打分;如何抽取文字單元的一個子集生成摘要。分別對應著排序單元和抽取單元。

    通俗講就是,先用排序單元把文件中的單元排序,選擇排名靠前的單元,再用抽取單元去除選出來的單元之間的冗餘資訊,得到最後的自動摘要。


    

    兩種實現思路:1)排序單元給句子打分,抽取單元抽取(去除冗餘)句子子集作為摘要;2)排序單元給文件集中的概念打分,抽取單元抽取一組能夠最大限度覆蓋重要概念的句子。

    對於排序單元,有三種學習排序演算法:

1) pointwise排序:孤立地處理每個樣本(句子或者概念),把句子的特徵和標記(排序等級)輸入到機器學習演算法中,學習出分類器;

2) pairwise排序:從一系列句子對或者概念對{(x_i, x_j)}中學習排序函式f(x_i)。考慮了兩兩樣本之間的排序問題;

3) listwise排序:所有樣本之間的排序都考慮在內。

一定程度上,學習排序演算法(LTR)和多標記學習裡的方法是類似的,一階/二階/高階方法。

 

    對於抽取單元,需要從排序後的文字單元中,抽取一部分代表性的句子,生成抽取式摘要,在抽取的過程中,要儘可能地去除冗餘。常用的是一個基於整數規劃的抽取方法








求解上面的整數規劃,我們就可以得到哪些句子是需要抽取出來,組成摘要的。




參考文獻:

文件摘要演算法的研究與應用    金鋒





相關文章