隨著近幾年文字資訊的爆發式增長,人們每天能接觸到海量的文字資訊,如新聞、部落格、聊天、報告、論文、微博等。從大量文字資訊中提取重要的內容,已成為我們的一個迫切需求,而自動文字摘要(automatic text summarization)則提供了一個高效的解決方案。
根據Radev的定義[3],摘要是“一段從一份或多份文字中提取出來的文字,它包含了原文字中的重要資訊,其長度不超過或遠少於原文字的一半”。自動文字摘要旨在透過機器自動輸出簡潔、流暢、保留關鍵資訊的摘要。
自動文字摘要有非常多的應用場景,如自動報告生成、新聞標題生成、搜尋結果預覽等。此外,自動文字摘要也可以為下游任務提供支援。
儘管對自動文字摘要有龐大的需求,這個領域的發展卻比較緩慢。對計算機而言,生成摘要是一件很有挑戰性的任務。從一份或多份文字生成一份合格摘要,要求計算機在閱讀原文字後理解其內容,並根據輕重緩急對內容進行取捨,裁剪和拼接內容,最後生成流暢的短文字。因此,自動文字摘要需要依靠/理解的相關理論,是近幾年來的重要研究方向之一。
自動文字摘要通常可分為兩類,分別是抽取式(extractive)和生成式(abstractive)。抽取式摘要判斷原文字中重要的句子,抽取這些句子成為一篇摘要。而生成式方法則應用先進的的演算法,透過轉述、同義替換、句子縮寫等技術,生成更凝練簡潔的摘要。比起抽取式,生成式更接近人進行摘要的過程。歷史上,抽取式的效果通常優於生成式。伴隨深度神經網路的興起和研究,基於神經網路的生成式文字摘要得到快速發展,並取得了不錯的成績。
本文主要介紹基於深度神經網路的生成式自動文字摘要,著重討論典型的摘要模型,並介紹如何評價自動生成的摘要。對抽取式和不基於深度神經網路的生成式自動文字摘要感興趣的同學可以參考[1][2]。