使用TensorFlow可實現文章自動摘要

banq發表於2016-08-25
每天人們都依靠各種各樣的資訊來源來獲得資訊--從新聞報導到社會媒體報導,到搜尋結果等等。能夠開發一種機器學習模型,可以自動提供準確的、對較長的文字能夠自動總結,提煉文章摘要的功能因此變得更加實際和有用,以一種壓縮的形式來消化這些大量的資訊,是谷歌大腦團隊的一個長期目標。

為了實現對資訊的總結,機器學習模型需要能夠理解檔案和提取重要資訊,這對於計算機來說是一項非常具有挑戰性的任務,尤其是當資訊檔案的長度增加時。

總結的一個方法是提取有趣的能夠度量的部分(例如,逆文件頻率),合併它們形成對一個文件的總結和摘要。比如:

原文:愛麗絲和鮑伯乘火車去參觀動物園。他們看見了一隻小長頸鹿、一隻獅子和一隻五顏六色的熱帶鳥。

摘要:愛麗絲和鮑伯參觀動物園。看見一群鳥。

上面我們提字方法是粗糙的,直接連結起來形成一個總結。我們可以看到,有時這種提取約束的總結是令人尷尬或語法奇怪的。

另一種方法是如同人類一樣進行簡單概括,這是沒有使用提取約束,而是實現改述;。這就是所謂的抽象概括。

抽象的總結:愛麗絲和鮑伯去動物園看動物和鳥類。

在這個例子中,我們使用的單詞不再是來自原來的文字,以同樣的詞量保持更多的資訊。很明顯,我們希望這種比較好的抽象概括,但一個演算法開始可能做這個嗎?

對於短文字,文章總結能夠使用一種深度技術稱為序列學習的方式解決,類似來信自動回覆

我們能夠培養這樣的模型,以產生非常好的新聞文章頭條。在這種情況下,該模型讀取文章與文字並會建立編寫一個合適的標題。

要知道模型產生的想法,你可以看看下面的一些例子。第一行顯示了一個新聞文章的第一句,作為模型輸入,第二行顯示了模型所寫的標題。

原文:米高梅報導三分之一季度淨虧損1600萬美元主要是由於會計規則的影響。
機器標題:米高梅公司報告淨虧損1600萬高收益

原文:
從7月1日起,中國南部的海南省將實施嚴格的市場準入控制所有傳入的牲畜和動物產品,以防止傳染病可能傳播
機器標題:海南遏制疾病傳播

原文“據政府統計局星期一公佈的資料顯示,澳大利亞葡萄酒九月出口創下5210萬升,價值2億6000萬澳元(1億4300萬美元),政府統計局星期一報導。
機器標題:澳大利亞葡萄酒出口創歷史新高九月。

Research Blog: Text summarization with TensorFlow

相關文章