textrank-jieba 演算法復現

龍仔發表於2019-02-16

原文網址 : https://flycode.co/archives/80057

根據jieba textrank演算法的思路，手動復現textrank演算法。
思路：1.分詞，確定視窗大小。

 2.根據視窗大小，組合共現詞和頻率，頻率代表共現權重。
      trick:正反雙向共現詞。
 3.根據textrank 每個詞的權重的迭代公式，採用氣泡排序的方法，將一個詞的所有共現詞的權重代入公式。
 4.迭代10次，使每個詞的權重收斂。
 5.根據權重排序，輸出top words。

import collections
import sys
import jieba
import jieba.posseg as psg
from operator import itemgetter


class UndirectWeightedGraph:
    d=0.85
    def __init__(self):
        self.edges=collections.defaultdict(list)
    def add_edge(self,start,end,weight):
        self.edges[start].append((start,end,weight))
        self.edges[end].append((end,start,weight))
    def rank(self):
        ws=collections.defaultdict(float)
        outSum=collections.defaultdict(float)

        wsdef=1.0/(len(self.edges) or 1.0)
        for n,elem in self.edges.items():
            outSum[n]=sum([e[2] for e in elem])
            ws[n]=wsdef

        for epoch in range(10):
            for n,elems in self.edges.items():
                s=0
                for elem in elems:
                   s+=elem[2]/outSum[elem[1]]*ws[elem[1]]
                ws[n]=s

        min_rank,max_rank=sys.float_info[0],sys.float_info[3]
        for n,w in ws.items():
            if w<min_rank:
                min_rank=w
            if w>max_rank:
                max_rank=w

        for n,w in ws.items():
            ws[n]=((n-min_rank)/10.0)/((max_rank-min_rank)/10.0)
        return ws

class TextRank(object):
    def __init__(self):
        self.stopwords=[]
        self.pos_filter=[]
        self.span=5
    def pairfilter(self,wp):
        return wp.flag in self.pos_filter and len(wp.word)>=2 and wp.word.lower not in self.stopwords
    def textrank(self,sentence,topk=20):
        uwg=UndirectWeightedGraph()
        words=psg.lcut(sentence)
        wm=collections.defaultdict(int)
        for word_index,wp in enumerate(words):
            if self.pairfilter(wp):
                for index_assit in range(word_index+1,word_index+5):
                    if index_assit>=len(words):
                        break
                    if not self.pairfilter(words[index_assit]):
                        continue
                    wm[(wp,words[index_assit])]+=1
                    # uwg.add_edge(wp.word,words[index_assit].word,1)
        for words_tuple,w in wm.items():
            uwg.add_edge(words_tuple[0],words_tuple[1],w)
        g=uwg.rank()
        g=sorted(g.items(),key=itemgetter(1),reverse=True)
        return g[:topk]

Squarified Treemaps 論文演算法復現
2020-11-28
演算法
FCOS論文復現：通用物體檢測演算法
2022-11-28
演算法
MAE自監督演算法介紹和基於EasyCV的復現
2022-05-18
演算法
NSBM模型復現
2024-05-22
模型
Apache漏洞復現
2024-04-06
Apache
BaseCTF復現-Crypto
2024-10-09
weblogic 漏洞復現
2024-06-27
Web
回溯演算法之復原IP地址
2019-03-19
演算法
Facebook開源演算法程式碼庫PySlowFast，輕鬆復現前沿視訊理解模型
2020-01-08
演算法AST模型
weblogic ssrf漏洞復現
2020-11-06
Web
笑臉漏洞復現
2024-10-29
Vulhub WebLogic漏洞復現
2024-06-13
Web
Tomcat系列漏洞復現
2024-07-22
Tomcat
Github復現之TransUNet
2022-03-01
Github
【阿菜漏洞復現】DeFi 平臺 MonoX Finance 漏洞分析及復現
2021-12-10
MonoNaN
phpStudy poc漏洞復現以及漏洞修復辦法
2019-09-27
PHP
graspnet復現保姆級教程
2024-04-10
Split to Be Slim: 論文復現
2023-04-24
Weblogic-SSRF漏洞復現
2019-05-23
Web
護網漏洞復現（三）
2024-09-04
CVE-2022-4230 復現
2024-08-03
CVE-2023-23752 復現
2024-08-04
CVE-2023-1313 復現
2024-08-04
nctf復現 re1
2020-11-28
李開復告訴你：演算法的力量
2018-08-23
演算法
micropather實現A*演算法
2019-01-08
演算法
ARC演算法實現
2024-07-12
演算法
LFU演算法實現
2024-07-07
演算法
經典論文復現 | 基於深度卷積網路的影像超解析度演算法
2018-12-14
卷積演算法
經典論文復現 | 基於深度卷積網路的影象超解析度演算法
2018-12-14
卷積演算法
Raid5資料恢復演算法原理+raid5資料恢復方法
2018-09-13
AI資料恢復演算法
RILIR 復現 & 一些 idea
2024-04-19
Idea
Redis未授權漏洞復現
2024-05-01
Redis
動態sbm模型dsbm復現
2024-05-22
模型
CVE-2015-5254漏洞復現
2023-04-24
CVE-2016-3088漏洞復現
2023-04-25
IIS短檔名漏洞復現
2019-07-27
nginx目錄穿越漏洞復現
2019-07-24
Nginx

textrank-jieba 演算法復現

相關文章