如何找到好的主題模型量化評價指標?這是一份熱門方法總結
Oliver_Wang發表於2020-02-05
本文就主題模型的評價指標進行討論,對當下比較熱門的評價方法進行總結,並對未來這一領域可能的發展方向進行展望。巨集觀上講,主題模型就是用來在一系列文件中發現抽象主題的一種統計模型,一般來說,這些主題是由一組詞表示了。如果一篇文章有一箇中心思想,那麼一些特定詞語會更頻繁的出現。比方說,如果一篇文章是在講狗的,那「狗」和「骨頭」等詞出現的頻率會高些。如果一篇文章是在講貓的,那「貓」和「魚」等詞出現的頻率會高些。而有些詞例如「這個」、「和」大概在兩篇文章中出現的頻率會大致相等。如果一篇文章 10% 和貓有關,90% 和狗有關,那麼和狗相關的關鍵字出現的次數大概會是和貓相關的關鍵字出現次數的 9 倍。而一個主題模型則會用數學框架來體現文件的這種特點。如圖 1 所示,最左邊的就是各個主題(提前確定好的),然後在文中不同的顏色對應不同的主題,比如黃色可能對應狗,那麼文中跟狗相關的詞都會標成黃色,這樣最後就能獲得一個各個主題可能的主題分佈。圖 1:主題模型(圖源:https://medium.com/@tengyuanchang/%E7%9B%B4%E8%A7%80%E7%90%86%E8%A7%A3-lda-latent-dirichlet-allocation-%E8%88%87%E6%96%87%E4%BB%B6%E4%B8%BB%E9%A1%8C%E6%A8%A1%E5%9E%8B-ab4f26c27184)本文主要是介紹主題模型的量化評價指標,因此不對主題模型做過多解釋。如果對主題模型沒有什麼基礎的,可以看一下機器之心發過的一篇比較適合入門的教程,有需要可以自取。同時,除了教程中提到的這些概率模型,一些深度學習模型(GAN, Encoding-Decoding 等)也開始進入這一領域,比如基於 GAN 的 ATM(Adversarial-neural Topic Model)就有不錯的表現。