【論文學習】FastText總結

lyj157175發表於2020-10-10

《 Bag of Tricks for Efficient Text Classification》

Fasttext: 對於高效率文字分類的一攬子技巧

論文背景:

  1. 文字分類是自然語言處理的重要任務,可以用於資訊檢索、網頁搜尋、文件分類等。
  2. 基於深度學習的方法可以達到非常好的效果,但是速度很慢,限制了文字分類的應用。
  3. 基於機器學習的線性分類器效果也很好,有用於大規模分類任務的潛力。
  4. 從現在詞向量學習中得到的靈感,我們提出了一種新的文字分類方法Fasttext,這種方法能夠快
    速的訓練和測試並且達到和最優結果相似的效果。

Fasttext歷史意義

• 提出了一種新的文字分類方法——Fasttext,能夠進行快速的文字分類,並且效果很好。
• 提出了一種新的使用子詞的詞向量訓練方法——Fasttext,能夠一定程度上解決OOV問題。
• 將Fasttext開源,使得工業界和學術界能夠快速使用Fasttext。

Fasttext模型優缺點

優點:
  1. 速度非常快,並且效果還可以。
  2. 有開源實現,可以快速上手使用。
缺點:
  1. 模型結構簡單,所以目前來說,不是最優的模型。
  2. 因為使用詞袋思想,所以語義資訊獲取有限。

論文總結

關鍵點

• 基於深度學習的文字分類方法效果好,但是速度比較慢
• 基於線性分類器的機器學習方法效果還行,速度也比較快,但是需要做煩瑣的特徵工程
• Fasttext模型

創新點

• 提出了一種新的文字分類模型—Fasttext模型
• 提出了一些加快文字分類和使得文字分類效果更好的技巧——層次softmax和n-gram特徵。
• 在文字分類和tag預測兩個任務上得到了又快又好的結果。

相關文章