HanLP 關鍵詞提取演算法分析詳解

adnb34g發表於2018-11-05


參考論文:《 TextRank: Bringing Order into Texts》

TextRank演算法提取關鍵詞的Java實現

TextRank演算法自動摘要的Java實現這篇文章中作者大概解釋了一下TextRank公式

1. 論文

In this paper, we introduce the TextRank graphbased ranking model for graphs extracted from natural

language texts

TextRank是一個非監督學習演算法,它將文字中構造成一個圖,將文字中感興趣的東西(比如分詞)當成一個個頂點,然後應用TextRank演算法來抽取文字中的一些資訊。

Such keywords may constitute useful entries for building an automatic index for a document collection, can be used to classify a text, or may serve as a concise summary for a given document.

提取出來的關鍵詞,可用來作為文字分類,或者概括文字的中心思想。

TextRank通過不斷地迭代來提取關鍵詞,每一輪迭代,演算法給圖中的頂點打分。直到滿足某個條件(比如說迭代次數克到200次,或者設定的某個引數達到一個閾值)為止。

For loosely connected graphs, with the number of edges proportional with the number of vertices,

undirected graphs tend to have more gradual convergence curves.

對於稀疏圖而言,邊的數目與頂點的數目成線性關係,對這樣的圖進行關鍵詞提取,有著更平緩的收斂曲線(或者叫收斂得慢吧)

It may be therefore useful to indicate and incorporate into the model the “strength”

of the connection between two vertices $V_i$ and $V_j$ as a weight $w_{ij}$ added to the corresponding edge that connects the two vertices.

有時,圖中頂點之間的關係並不完全平等,比如某些頂點之間關係密切,這裡可用邊的權重來衡量頂點之間的相關性重要程度,而這就是帶權圖模型。

2. 原始碼實現

2.1 關鍵詞提取流程

給定若干個句子,提取關鍵詞。而 TextRank演算法是 graphbased ranking model,因此需要構造一個圖,要想構造圖,就需要確定圖中的頂點如何構造,於是就把句子進行分詞,將分得的每個詞作為圖中的頂點。

在選取某個詞作為圖的頂點的時候,可以應用一些過濾規則:比如說,去除掉分詞結果中的停用詞、根據詞性來新增頂點(比如只將名詞和動詞作為圖的頂點) ……

The vertices added to the graph can be restricted with syntactic filters, which select only lexical units of a certain part of speech. One can for instance consider only nouns and verbs for addition to the graph, and consequently draw potential edges based only on relations that can be established between nouns and verbs.

在確定好哪些詞作為圖的頂點之後,另一個是確定詞與詞之間的關係,也即:圖中的哪些頂點有邊?比如說設定一個視窗大小,落在這個視窗內的詞,都新增一條邊。

it is the application that dictates the type of relations that are used to draw connections between any two such vertices,

確定了邊的關係後,接下來是確定邊上權值。這個也是根據實際情況而定。

2.2 根據視窗大小確定詞的鄰接點

前面提到,若干句話分詞之後,得到的一個個的詞,或者叫 Term。假設視窗大小為5。解釋一下TextRank演算法提取關鍵詞的Java實現文章中提到的如何確定某個Term有哪些鄰接Term。

比如說: '程式設計師' 這個Term,它在多個句子中出現了,因此分詞結果'程式設計師' 出現在四個地方:

 

索引 0處:'程式設計師'的鄰接點有:

英文、 programmer、從事、程式

 

索引 9處:'程式設計師'的鄰接點有:

開發、維護、專業、人員、分為、程式、設計、人員

    

索引 26處,'程式設計師'的鄰接點有:

中國、軟體、從業人員、分為、高階、程式設計師、系統分析員、專案經理

 

索引 28處,'程式設計師'的鄰接點有:

從業人員、分為、程式設計師、高階、系統分析員、專案經理、四大

結合這四處視窗中的所有的詞,得到 '程式設計師'的鄰接點如下:

 

因此,當視窗大小設定為 5時,Term的前後四個Term都將視為它的鄰接點,並且當這個Term出現多次時,則是將它各次出現位置處的前後4個Term合併,最終作為這個Term的鄰接點。

從這裡可看出:如果某個 Term在句子中出現了多次,意味著該Term會比較重要。因為它的鄰接點會比較多,也即有很多其他Term給它投了票。這就有點類似於Term Frequency來衡量Term的重要性。

2.3 得分(score)的更新演算法

m.put(key, m.get(key) + d / size * (score.get(element) == null ? 0 : score.get(element)));程式碼的解讀:

m.get(key)如果是第一次進入for (String element : value),則是拿到公式前半部分1-d的結果;如果是已經在for (String element : value)進行了迭代,for迴圈相當於求和:Σvj∈In(vi)Σvj∈In(vi)

for (String element : value) {

    int size = words.get(element).size();

    m.put(key, m.get(key) + d / size * (score.get(element) == null ? 0 : score.get(element)));

}

”他說的確實在理“ 舉例來說:,選取視窗大小為5,經過分詞並去除停用詞後:

 

構造的無向圖如下:(每條邊的權值都為 1)

 

以頂點 '理'為例,來看一下'理'的得分是如何被更新的。在for (String element : value)一共有兩個頂點對 '理'進行投票,首先是 '確實'頂點,與'確實'頂點鄰接的頂點有兩個,因此:int size = words.get(element).size();中size=2。接下來,來分解一下這行程式碼:

m.put(key, m.get(key) + d / size * (score.get(element) == null ? 0 : score.get(element)))

m.get(key)為1-d,因為在外層for迴圈中,m.put(key, 1 - d)已經公式的前半分部(1-d)儲存了。

score.get(element) == null ? 0 : score.get(element)這個是獲取上一輪迭代的結果。對於初始第一輪迭代而言,score.get(element)為0.8807971,這個值是每個頂點的得分初始值:

          //依據TF來設定初值,  words 代表的是 一張 無向圖

          for (Map.Entry<String, Set<String>> entry : words.entrySet()) {

              score.put(entry.getKey(), sigMoid(entry.getValue().size()));//無向圖的每個頂點 得分值 初始化

          }

score.get(element)相當於公式中的WS(Vj)WS(Vj)

最後來分析一個 size,size是由程式碼int size = words.get(element).size()獲得的,由於每條邊權值為1,size其實相當於:ΣVk∈Out(Vj)wjkΣVk∈Out(Vj)wjk。

In('理')={'確實','說'}

VjVj為'確實'時,Out(Vj)Out(Vj)為{'說','理'},因此:ΣVk∈Out(Vj)wjk=2ΣVk∈Out(Vj)wjk=2。於是,更新頂點'理'的得分:1−d+d∗(1/2)∗0.8807971=0.52433871−d+d∗(1/2)∗0.8807971=0.5243387。然後再通過m.put將臨時結果儲存起來。

接下來, for (String element : value)繼續,此時:VjVj為頂點'說',由於頂點'說'也有兩條鄰接邊,因此有:ΣVk∈Out(Vj)wjk=2ΣVk∈Out(Vj)wjk=2。於是更新頂點'理'的得分:0.5243387+d∗(1/2)∗0.8807971=0.898677470.5243387+d∗(1/2)∗0.8807971=0.89867747。而這就是第一輪迭代時,頂點'理'的得分。

根據上面的 1、2中的步驟,for (String element : value)就相當於:ΣVj∈In(Vi)ΣVj∈In(Vi),因為每次都把計算好的結果再put回HashMap m中。

因此,在第一輪迭代中,頂點 '理'的得分就是:0.89867747

類似於,經過: max_iter次迭代,或者達到閾值:

               if (max_diff <= min_diff)

                  break;

時,就不再迭代了。

下面再來對程式碼作個總體說明:

這裡是構造無向圖的過程

         for (String w : wordList) {

            if (!words.containsKey(w)) {

                //排除了 wordList 中的重複term, 對每個已去重的term, 用 TreeSet<String> 儲存該term的鄰接頂點

                words.put(w, new TreeSet<String>());

            }

            // 複雜度O(n-1)

            if (que.size() >= 5) {

                //視窗的大小為5,是寫死的. 對於一個term_A而言, 它的前4個term、後4個term 都屬於term_A的鄰接點

                que.poll();

            }

            for (String qWord : que) {

                if (w.equals(qWord)) {

                    continue;

                }

                //既然是鄰居,那麼關係是相互的,遍歷一遍即可

                words.get(w).add(qWord);

                words.get(qWord).add(w);

            }

            que.offer(w);

        }

這裡是對圖中每個頂點賦值一個初始 score過程:

        Map<String, Float> score = new HashMap<String, Float>();//儲存最終每個關鍵詞的得分

        //依據TF來設定初值,  words 代表的是 一張 無向圖

        for (Map.Entry<String, Set<String>> entry : words.entrySet()) {

            score.put(entry.getKey(), sigMoid(entry.getValue().size()));//無向圖的每個頂點 得分值 初始化

        }

接下來,三個 for迴圈:第一個for迴圈代表迭代次數;第二個for迴圈代表:對無向圖中每一個頂點計算得分;第三個for迴圈代表:對某個具體的頂點而言,計算它的每個鄰接點給它的投票權重。

for (int i = 0; i < max_iter; ++i) {

    //....

    for (Map.Entry<String, Set<String>> entry : words.entrySet()) {

        //...

        for (String element : value) {

這樣,就實現了論文中公式:

WS(vi)=(1−d)+d∗ΣVj∈In(Vi)wjiΣVk∈Out(Vj)wjk∗WS(Vj)

WS(vi)=(1−d)+d∗ΣVj∈In(Vi)wjiΣVk∈Out(Vj)wjk∗WS(Vj)

而最終提取出來的關鍵詞是:

[理, 確實, 說]

上面只是用 ”他說的確實在理“ 這句話 演示了TextRank演算法的具體細節,在實際應用中可能不合理。因為會存在:

現有統計資訊不足以讓 TextRank支援 某個詞 的重要性,演算法有侷限性。

可見: TextRank提取關鍵詞是受到分詞結果的影響的;其次,也受視窗大小的影響。雖然說程式碼是大致看懂了,但是還是有一些疑問的:比如,為什麼用上面那個公式計算,得分高的詞語就是關鍵詞了?根據TextRank求關鍵詞與Term Frequency求關鍵詞有什麼優勢?選取文字中的哪些詞建立模型作為圖的頂點?基於文字之間的什麼樣的關係作為圖的邊?


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2218692/,如需轉載,請註明出處,否則將追究法律責任。

相關文章