文件摘要自動提取演算法——抽取式
文件摘要自動提取演算法——抽取式
自動提取文件摘要的演算法,主流方法分為兩類:Extractive 抽取式、Abstractive 概要式。這篇我們主要將抽取式。
抽取式:
從原始文件集中抽取一些具有代表性的文字片段構成摘要,這些片段可以是整個文件中的句子、子句、段落或者小節。
抽取式方法有兩個問題,如何對文字單元排序打分;如何抽取文字單元的一個子集生成摘要。分別對應著排序單元和抽取單元。
通俗講就是,先用排序單元把文件中的單元排序,選擇排名靠前的單元,再用抽取單元去除選出來的單元之間的冗餘資訊,得到最後的自動摘要。
兩種實現思路:1)排序單元給句子打分,抽取單元抽取(去除冗餘)句子子集作為摘要;2)排序單元給文件集中的概念打分,抽取單元抽取一組能夠最大限度覆蓋重要概念的句子。
對於排序單元,有三種學習排序演算法:
1) pointwise排序:孤立地處理每個樣本(句子或者概念),把句子的特徵和標記(排序等級)輸入到機器學習演算法中,學習出分類器;
2) pairwise排序:從一系列句子對或者概念對{(x_i, x_j)}中學習排序函式f(x_i)。考慮了兩兩樣本之間的排序問題;
3) listwise排序:所有樣本之間的排序都考慮在內。
一定程度上,學習排序演算法(LTR)和多標記學習裡的方法是類似的,一階/二階/高階方法。
對於抽取單元,需要從排序後的文字單元中,抽取一部分代表性的句子,生成抽取式摘要,在抽取的過程中,要儘可能地去除冗餘。常用的是一個基於整數規劃的抽取方法。
求解上面的整數規劃,我們就可以得到哪些句子是需要抽取出來,組成摘要的。
參考文獻:
文件摘要演算法的研究與應用 金鋒
相關文章
- 文字自動摘要:基於TextRank的中文新聞摘要
- 如何自動生成文字摘要
- markdown 文件標題樣式自動編號
- 爬蟲平臺Crawlab核心原理--自動提取欄位演算法爬蟲演算法
- jmeter 介面自動化連載 (8)- JsonPath 表示式提取響應JMeterJSON
- Python 自動化提取基因 CDSPython
- 文件提取工具 apache/tikaApache
- 當深度學習遇見自動文字摘要深度學習
- 無監督文字自動摘要野生技術
- 自動生成介面文件coreapiAPI
- showdoc 自動生成 API 文件API
- DRF 自動生成介面文件
- 提取pdf文件的目錄1.0
- 帝國CMS網站自動提取簡介時不想自動回車網站
- 利用apidoc自動生成model文件API
- 武夷 | 搞定自動化 API 文件API
- vsCode自動格式化文件VSCode
- 五分鐘搞懂摘要演算法演算法
- [資訊抽取]基於ERNIE3.0的多對多資訊抽取演算法:屬性關係抽取演算法
- 如何利用showdoc自動生成API文件API
- java 文件自動生成的神器 idocJava
- 怕寫文件?AI自動生成程式碼文件的外掛AI
- [shell]shell指令碼實現每天自動抽取資料插入hive表指令碼Hive
- 如何抽取Oracle資料到文字文件進行查詢NAOracle
- python實現自動提取句子中的關鍵字Python
- MD5訊息摘要演算法演算法
- librosa 音訊特徵提取的現成文件ROS音訊特徵
- 資料採集之:巧用布隆過濾器提取資料摘要過濾器
- node.js自動生成api文件(apidocjs)Node.jsAPI
- NET 5.0 Swagger API 自動生成MarkDown文件SwaggerAPI
- 文章太長不想看?ML 文字自動摘要了解一下
- hanlp中文智慧分詞自動識別文字提取例項HanLP分詞
- 基於BERT進行抽取式問答
- Django(74)drf-spectacular自動生成介面文件Django
- 自動生成為swagger文件的出入參示例Swagger
- [Django REST framework - 自動生成介面文件、分頁]DjangoRESTFramework
- 《認知驅動》閱讀摘要
- XAIGen:自動化攻擊特徵提取的專案開源啦AI特徵
- 爬取Arcconf文件教程並自動生成Gitbook文件顯示 - 資料獲Git