文件摘要自動提取演算法——抽取式
文件摘要自動提取演算法——抽取式
自動提取文件摘要的演算法,主流方法分為兩類:Extractive 抽取式、Abstractive 概要式。這篇我們主要將抽取式。
抽取式:
從原始文件集中抽取一些具有代表性的文字片段構成摘要,這些片段可以是整個文件中的句子、子句、段落或者小節。
抽取式方法有兩個問題,如何對文字單元排序打分;如何抽取文字單元的一個子集生成摘要。分別對應著排序單元和抽取單元。
通俗講就是,先用排序單元把文件中的單元排序,選擇排名靠前的單元,再用抽取單元去除選出來的單元之間的冗餘資訊,得到最後的自動摘要。
兩種實現思路:1)排序單元給句子打分,抽取單元抽取(去除冗餘)句子子集作為摘要;2)排序單元給文件集中的概念打分,抽取單元抽取一組能夠最大限度覆蓋重要概念的句子。
對於排序單元,有三種學習排序演算法:
1) pointwise排序:孤立地處理每個樣本(句子或者概念),把句子的特徵和標記(排序等級)輸入到機器學習演算法中,學習出分類器;
2) pairwise排序:從一系列句子對或者概念對{(x_i, x_j)}中學習排序函式f(x_i)。考慮了兩兩樣本之間的排序問題;
3) listwise排序:所有樣本之間的排序都考慮在內。
一定程度上,學習排序演算法(LTR)和多標記學習裡的方法是類似的,一階/二階/高階方法。
對於抽取單元,需要從排序後的文字單元中,抽取一部分代表性的句子,生成抽取式摘要,在抽取的過程中,要儘可能地去除冗餘。常用的是一個基於整數規劃的抽取方法。
求解上面的整數規劃,我們就可以得到哪些句子是需要抽取出來,組成摘要的。
參考文獻:
文件摘要演算法的研究與應用 金鋒
相關文章
- 用PyTorch搭建抽取式摘要系統PyTorch
- Python實踐:提取文章摘要Python
- 文字自動摘要工具 TextTeaser 開源
- 爬蟲平臺Crawlab核心原理--自動提取欄位演算法爬蟲演算法
- 當深度學習遇見自動文字摘要深度學習
- 無監督文字自動摘要野生技術
- 使用TensorFlow可實現文章自動摘要
- Python 自動化提取基因 CDSPython
- jmeter 介面自動化連載 (8)- JsonPath 表示式提取響應JMeterJSON
- 文件提取工具 apache/tikaApache
- showdoc 自動生成 API 文件API
- DRF 自動生成介面文件
- 自動生成介面文件coreapiAPI
- 帝國CMS網站自動提取簡介時不想自動回車網站
- 武夷 | 搞定自動化 API 文件API
- C#文件自動化 (轉)C#
- 提取pdf文件的目錄1.0
- [資訊抽取]基於ERNIE3.0的多對多資訊抽取演算法:屬性關係抽取演算法
- 利用apidoc自動生成model文件API
- 如何利用showdoc自動生成API文件API
- beego API自動化文件問題GoAPI
- 五分鐘搞懂摘要演算法演算法
- 怕寫文件?AI自動生成程式碼文件的外掛AI
- 從視訊提取迴圈播放式GIF動畫的演算法動畫演算法
- [shell]shell指令碼實現每天自動抽取資料插入hive表指令碼Hive
- vsCode自動格式化文件VSCode
- java 文件自動生成的神器 idocJava
- 讓PPT文件自動實現列表播放
- MD5訊息摘要演算法演算法
- 資料採集之:巧用布隆過濾器提取資料摘要過濾器
- hanlp中文智慧分詞自動識別文字提取例項HanLP分詞
- python實現自動提取句子中的關鍵字Python
- 自動駕駛控制演算法自動駕駛演算法
- 日期提取函式EXTRACT函式
- 如何抽取Oracle資料到文字文件進行查詢NAOracle
- HttpClient和HtmlParser配合實現自動登陸系統抽取頁面資訊HTTPclientHTML
- 互動式多模型(IMM)的自適應機動目標跟蹤演算法模型演算法
- [Django REST framework - 自動生成介面文件、分頁]DjangoRESTFramework