下一步研究目標:盤點NLP領域最具潛力的六大方向

机器之心發表於2018-03-05

在開始你的研究之前,瞭解目標領域中最重要的研究方向是很重要的任務。本文中,德國海德堡大學的計算語言學在讀博士 Sebastian Ruder 為我們介紹了 NLP 領域裡最具潛力的幾個研究方向。

目錄

  • 獨立於任務的 NLP 資料增強

  • 用於 NLP 的 few-shot learning

  • 用於 NLP 的的遷移學習

  • 多工學習

  • 跨語言學習

  • 獨立於任務的架構提升

當開始新領域的研究時,你會發現尋找引人注目的主題並學會問正確的問題是一件很難的事。這種情況在機器學習這種進展很快的領域裡尤其突出——你很難找到突破點。

本文旨在向初級研究人員和試圖進入研究領域的人提供啟發和思路,其中彙集了我感興趣的一系列研究課題:著重於自然語言處理(NLP)和遷移學習,所以本文不是面向所有讀者的。如果你對增強學習感興趣,OpenAI 提供了一系列有趣的增強學習研究主題(https://blog.openai.com/requests-for-research-2/)。如果你期待與他人合作,或對更廣泛的主題感興趣,請參閱 Artificial Intelligence Open Network(https://ai-on.org/)。

這些研究主題中的大多數目前還沒有被人們透徹地思考過;在很多情況下,概括性的描述是非常模糊和主觀的,未來研究方向也不甚明確。此外,大多數主題也並不包含低掛果實,因此需要我們非常努力才能得出結論。請注意:這一主題集並不是對於所有文獻的綜述,所以其覆蓋範圍可能不全。

希望本文能夠激發你的興趣,併為你自己的研究歷程提供靈感。

獨立於任務的 NLP 資料增強

資料增強旨在透過轉換生產現有訓練例項的變體而建立額外的訓練資料,以反映現實世界中的實際情況。在計算機視覺中,一般的增強技術有映象、隨機裁剪、剪下等。資料增強在 CV 中超級有用,比如有助於 AlexNet 對抗過擬合,絕大多數當前最優模型也使用了它。此外,資料增強非常直觀,因為它使得訓練資料更加多元,從而提升模型泛化能力。

然而,NLP 中資料增強並未廣泛使用。依我看,原因有兩點:

1. NLP 中的資料是分離的。這可防止我們把簡單的轉換直接應用於輸入資料。目前絕大多數的增強方法聚焦於這樣的轉換,比如領域隨機化 (Tobin et al., 2017) [2]。

2. 小的擾動可改變語義。刪除一個否定詞可能會改變句意,修改段落中的一個詞可能無意中改變了關於該段落問題的答案。其實在 CV 中情況並非如此:擾動一個畫素並不會改變一個貓或狗的影像,並且甚至明顯的變化比如不同影像的插值也是有用的(Zhang et al., 2017)[3]。

我關注的現有方法要麼是基於規則的 (Li et al., 2017) [5],要麼是解決特定任務的,比如解析 (Wang and Eisner, 2016) [6] 或零-代名詞解析度 (Liu et al., 2017) [7]。Xie et al. (2017) [39] 透過來自不同分佈的樣本替代單詞以進行語言建模和機器翻譯。最近聚焦於建立對抗樣本的工作要麼是透過替代單詞或字元 (Samanta and Mehta, 2017; Ebrahimi et al., 2017) [8, 9],級聯 (Jia and Liang, 2017) [11];要麼是新增對抗擾動 (Yasunaga et al., 2017)。Li et al. (2017) [16] 同樣使用了對抗設定,其訓練系統生產與人類對話語句無差別的序列。

反向翻譯(Back-translation)(Sennrich et al., 2015; Sennrich et al., 2016) [12, 13] 是機器翻譯中的常見資料增強方法,有助於吸收單語訓練資料。比如,當訓練一個英轉法系統時,單語法語文字透過法轉英系統被翻譯成英語;合成的平行資料接著被用於訓練。反向翻譯同樣用於釋義 (Mallinson et al., 2017) [14]。釋義已被用於 QA (Dong et al., 2017) [15] 的資料增強,但並未發現有其他用處。

另一個方法與釋義相近,即透過變分自編碼器 (Bowman et al., 2016; Guu et al., 2017) [17, 19] 從連續空間中生成語句。如果按照 Hu et al., 2017 [18] 把表徵解開,那麼我們離風格遷移 (Shen et al., 2017) [20] 也就不遠了。

以下幾個研究方向很有趣,值得去跟:

1. 評估學習:評估一系列未廣泛使用的現有資料增強方法及技巧,比如應用於一系列不同任務(包括文字分類和序列標註)的釋義和風格遷移。確定何種型別的資料增強在所有任務和特定任務中是魯棒的。這可被打裝成軟體庫以使未來的基準更容易。

2. 帶有風格遷移的資料增強:調查風格遷移是否可用於修改訓練例項的不同屬性以獲得更魯棒的學習。

3. 學習增強:類似於 Dong et al. (2017),我們可為一個特定任務學習釋義或者生成轉換。

4. 學習詞嵌入空間以增強資料:典型的詞嵌入空間同時聚類同義詞和反義詞。因此在空間中使用最近鄰用於替換是不可行的。受最近工作 (Mrkšić et al., 2017) [21] 啟發,我們可以具化詞嵌入空間以使其更適用於資料增強。

5. 對抗性資料增強:與最近的可解釋性工作相關 (Ribeiro et al., 2016) [22],我們可以改變例項中最重要的單詞,即那些模型依賴以做出預測的單詞。但是這依然需要保留語義的替換方法。

用於 NLP 的 Few-shot learning

Zero-shot、one-shot、few-shot learning 是最近最為有趣的研究方向之一。透過遵從 Vinyals et al. (2016) [4] 的核心思想,即 few-shot learning 模型應該明確地訓練以執行 few-shot learning,我們已取得若干個最新進展 (Ravi and Larochelle, 2017; Snell et al., 2017) [23, 24]。學習若干個標註樣本是最艱難的問題之一,以及區分當前機器學習模型生成與更廣泛應用的系統的核心能力之一。據我所知,Zero-shot learning 只在學習未知單詞的詞嵌入的語境中被調查。無資料分類 (Song and Roth, 2014; Song et al., 2016) [25, 26] 是一個有趣的相關方向,它在聯合空間中嵌入標籤和檔案,並需要帶有良好描述的可解釋性標籤。

1. 標準化基準:為 NLP few-shot learning 建立標準化基準。Vinyals et al. (2016) 為 Penn Treebank 引入了 one-shot 語言建模任務。這一任務儘管很有用,但與 CV 基準上的廣泛評估相比卻相形見絀,並且據我所知沒有多少使用。NLP 的 ew-shot learning 基準應該包含大量分類並提供標準化的再現性分割。良好的候選任務將是主題分類或細粒度實體識別。

2. 評估學習:建立這樣一個基準之後,下一步是評估 CV 中的現有 few-shot learning 方法在執行 NLP 任務方面表現如何。

3. NLP 的全新方法:給定一個基準資料集和實證評估學習,接著我們可以開始開發執行 NLP few-shot learning 的全新方法。

用於 NLP 的遷移學習

遷移學習已經對計算機視覺(CV)產生了巨大的影響,並大大降低了解決特定 CV 問題的難度門檻。計算機視覺從業者現在不再需要為每個新任務耗費大量的工程,僅需使用少量示例對已在大型資料集上訓練好的模型進行微調。

然而,在 NLP 領域裡,我們目前仍然只能透過預訓練嵌入來預訓練模型的第一層。近期一些研究人員提出的方法(Peters et al., 2017, 2018)[31,32] 加入了預訓練語言模型嵌入,但是它們仍然需要針對每個任務定製架構。在我看來,若想解鎖遷移學習在 NLP 上的真正潛力,我們需要預訓練整個模型,並在目標任務上僅需微調,類似於微調 ImageNet 模型。舉例來說,在 NLP 上的語言建模可以類比為 CV 上的 ImageNet 分類(Howard and Ruder, 2018)[33]。

這裡有一些潛在的研究方向:

1. 識別有用的預訓練任務:預訓練任務的選擇非常重要,即使是對於相關任務進行微調,我們也可能近會收到有限的成功(Mou et al., 2016)[38]。其他任務,如近期關於學習通用句嵌入的研究(Conneau et al., 2017;Subramanian et al., 2018; Nie et al., 2017)[34,35,40] 可能是語言模型預訓練的補充,或適用於其他目標任務。

2. 複雜架構的微調:模型應用於多目標時,預訓練是最為有效的。然而,目前仍不清楚如何對更為複雜的模型進行預訓練,如用於配對分類任務(Augenstein et al., 2018)或推理任務(如 Q&A 和閱讀理解)的模型。

多工學習

多工學習(Multi-task learning,MTL)在 NLP 領域中已經變得越來越普遍了。有關多工學習的概述,可參閱此處(http://ruder.io/multi-task/),有關 NTL 在 NLP 中的目標可參閱此處(http://ruder.io/multi-task-learning-nlp/)。對於我們來說,多工學習還有很多未知等待我們去探尋。

MTL 的主要問題帶來了一系列有趣的研究方向:

1. 確定有效的輔助任務:其中一個主要問題是哪些任務對於多工學習是有用的。標籤熵已被證明可以是 MTL 中成功的預測器(Alonso and Plank, 2017)[28],但這一方向並未結束。在最近的研究中(Augenstein et al., 2018)[27],我們發現又跟股東資料和更多細化標籤的輔助任務更加有效。未來的 MTL 論文或許不僅會提出新的模型或輔助任務,也會試圖開始求解為何很多輔助任務會比另一個緊密相關的任務更好。

2. 硬引數共享的替代方案:硬引數共享目前仍然是 MTL 的預設操作方式,但它對模型施加了很多約束,以便用相同的引數壓縮與不同任務有關的知識,這往往會使學習變得困難。在 MTL 中,我們需要更加易於使用,且在多種任務上工作穩定的新方法(Misra et al., 2017; Ruder et al., 2017)[29,30],標籤嵌入層(Augenstein et al., 2018)在這一方向上很有潛力。

3. 人工輔助任務:最好的輔助任務是針對主任務目標,且不需要任何附加資料的任務。在這裡,我列出了潛在的人工輔助任務列表(http://ruder.io/multi-task-learning-nlp/)。當然,目前我們還不清楚哪些輔助任務可以在多種不同型別的任務上適用,或哪種基於特定任務的變體效能最好。

跨語言學習

構建能夠跨語言的模型,將資源豐富語言中的知識遷移到資源貧乏的語言中,一直是 NLP 的重要研究方向之一。最近,學習跨語言表示,將多種不同語言投影到共享嵌入空間的方法有了很大進展。可參閱論文《A Survey of Cross-lingual Word Embedding Models》[36]。

跨語言表示通常根據內部基準測試,或外部下游任務(如文字分類)上的表現進行評估。雖然目前的最先進方法已經有了很多進步,但我們仍對於這些方法在某些任務或語言上的失敗原因,以及如何在所有任務上減小這些失敗的方法,如加入基於特定任務的約束(Mrkšić et al., 2017)仍未有足夠的理解。

獨立於任務的架構提升

目前,在各個特定任務上,業內最佳的成績正在不斷地被重新整理,舊的架構正不斷被淘汰。之前,我已經列出了在不同 NLP 任務上的最佳實踐(http://ruder.io/deep-learning-nlp-best-practices/),但如果不對這些架構在不同任務上的效能進行比較,我們很難定義特定架構的能力,也無法得知它們在其他任務上的可用性。

最近湧現出了一個頗具潛力的模型 Transformer(Vaswani et al., 2017)[37]。雖然完整的模型可能不適用於每個任務,但多頭注意(multi-head attention)或基於位置的編碼(position-based encoding)可以作為模組構建模型,這樣就可以適用於很多 NLP 任務了。

結論

希望這一研究方向彙集能夠對你有所幫助。如果你有關於如何解決相關研究課題的思路,歡迎在本文下進行討論。下一步研究目標:盤點NLP領域最具潛力的六大方向

參考文獻

1. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).

2. Tobin, J., Fong, R., Ray, A., Schneider, J., Zaremba, W., & Abbeel, P. (2017). Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World. arXiv Preprint arXiv:1703.06907. Retrieved from http://arxiv.org/abs/1703.06907

3. Zhang, H., Cisse, M., Dauphin, Y. N., & Lopez-Paz, D. (2017). mixup: Beyond Empirical Risk Minimization, 1–11. Retrieved from http://arxiv.org/abs/1710.09412

4. Vinyals, O., Blundell, C., Lillicrap, T., Kavukcuoglu, K., & Wierstra, D. (2016). Matching Networks for One Shot Learning. NIPS 2016. Retrieved from http://arxiv.org/abs/1606.04080

5. Li, Y., Cohn, T., & Baldwin, T. (2017). Robust Training under Linguistic Adversity. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (Vol. 2, pp. 21–27).

6. Wang, D., & Eisner, J. (2016). The Galactic Dependencies Treebanks: Getting More Data by Synthesizing New Languages. Tacl, 4, 491–505. Retrieved from https://www.transacl.org/ojs/index.php/tacl/article/viewFile/917/212%0Ahttps://transacl.org/ojs/index.php/tacl/article/view/917

7. Liu, T., Cui, Y., Yin, Q., Zhang, W., Wang, S., & Hu, G. (2017). Generating and Exploiting Large-scale Pseudo Training Data for Zero Pronoun Resolution. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (pp. 102–111).

8. Samanta, S., & Mehta, S. (2017). Towards Crafting Text Adversarial Samples. arXiv preprint arXiv:1707.02812.

9. Ebrahimi, J., Rao, A., Lowd, D., & Dou, D. (2017). HotFlip: White-Box Adversarial Examples for NLP. Retrieved from http://arxiv.org/abs/1712.06751

10. Yasunaga, M., Kasai, J., & Radev, D. (2017). Robust Multilingual Part-of-Speech Tagging via Adversarial Training. In Proceedings of NAACL 2018. Retrieved from http://arxiv.org/abs/1711.04903

11. Jia, R., & Liang, P. (2017). Adversarial Examples for Evaluating Reading Comprehension Systems. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.

12. Sennrich, R., Haddow, B., & Birch, A. (2015). Improving neural machine translation models with monolingual data. arXiv preprint arXiv:1511.06709.

13. Sennrich, R., Haddow, B., & Birch, A. (2016). Edinburgh neural machine translation systems for wmt 16. arXiv preprint arXiv:1606.02891.

14. Mallinson, J., Sennrich, R., & Lapata, M. (2017). Paraphrasing revisited with neural machine translation. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers (Vol. 1, pp. 881-893).

15. Dong, L., Mallinson, J., Reddy, S., & Lapata, M. (2017). Learning to Paraphrase for Question Answering. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.

16. Li, J., Monroe, W., Shi, T., Ritter, A., & Jurafsky, D. (2017). Adversarial Learning for Neural Dialogue Generation. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Retrieved from http://arxiv.org/abs/1701.06547

17. Bowman, S. R., Vilnis, L., Vinyals, O., Dai, A. M., Jozefowicz, R., & Bengio, S. (2016). Generating Sentences from a Continuous Space. In Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning (CoNLL). Retrieved from http://arxiv.org/abs/1511.06349

18. Hu, Z., Yang, Z., Liang, X., Salakhutdinov, R., & Xing, E. P. (2017). Toward Controlled Generation of Text. In Proceedings of the 34th International Conference on Machine Learning.

19. Guu, K., Hashimoto, T. B., Oren, Y., & Liang, P. (2017). Generating Sentences by Editing Prototypes.

20. Shen, T., Lei, T., Barzilay, R., & Jaakkola, T. (2017). Style Transfer from Non-Parallel Text by Cross-Alignment. In Advances in Neural Information Processing Systems. Retrieved from http://arxiv.org/abs/1705.09655

21. Mrkšić, N., Vulić, I., Séaghdha, D. Ó., Leviant, I., Reichart, R., Gašić, M., … Young, S. (2017). Semantic Specialisation of Distributional Word Vector Spaces using Monolingual and Cross-Lingual Constraints. TACL. Retrieved from http://arxiv.org/abs/1706.00374

22. Ribeiro, M. T., Singh, S., & Guestrin, C. (2016, August). Why should i trust you?: Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1135-1144). ACM.

23. Ravi, S., & Larochelle, H. (2017). Optimization as a Model for Few-Shot Learning. In ICLR 2017.

24. Snell, J., Swersky, K., & Zemel, R. S. (2017). Prototypical Networks for Few-shot Learning. In Advances in Neural Information Processing Systems.

25. Song, Y., & Roth, D. (2014). On dataless hierarchical text classification. Proceedings of AAAI, 1579–1585. Retrieved from http://cogcomp.cs.illinois.edu/papers/SongSoRo14.pdf

26. Song, Y., Upadhyay, S., Peng, H., & Roth, D. (2016). Cross-Lingual Dataless Classification for Many Languages. Ijcai, 2901–2907.

27. Augenstein, I., Ruder, S., & Søgaard, A. (2018). Multi-task Learning of Pairwise Sequence Classification Tasks Over Disparate Label Spaces. In Proceedings of NAACL 2018.

28. Alonso, H. M., & Plank, B. (2017). When is multitask learning effective? Multitask learning for semantic sequence prediction under varying data conditions. In EACL. Retrieved from http://arxiv.org/abs/1612.02251

29. Misra, I., Shrivastava, A., Gupta, A., & Hebert, M. (2016). Cross-stitch Networks for Multi-task Learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. http://doi.org/10.1109/CVPR.2016.433

30. Ruder, S., Bingel, J., Augenstein, I., & Søgaard, A. (2017). Sluice networks: Learning what to share between loosely related tasks. arXiv preprint arXiv:1705.08142.

31. Peters, M. E., Ammar, W., Bhagavatula, C., & Power, R. (2017). Semi-supervised sequence tagging with bidirectional language models. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017).

32. Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. Proceedings of NAACL.

33. Howard, J., & Ruder, S. (2018). Fine-tuned Language Models for Text Classification. arXiv preprint arXiv:1801.06146.

34. Conneau, A., Kiela, D., Schwenk, H., Barrault, L., & Bordes, A. (2017). Supervised Learning of Universal Sentence Representations from Natural Language Inference Data. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.

35. Subramanian, S., Trischler, A., Bengio, Y., & Pal, C. J. (2018). Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learning. In Proceedings of ICLR 2018.

36. Ruder, S., Vulić, I., & Søgaard, A. (2017). A Survey of Cross-lingual Word Embedding Models. arXiv Preprint arXiv:1706.04902. Retrieved from http://arxiv.org/abs/1706.04902

37. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … Polosukhin, I. (2017). Attention Is All You Need. In Advances in Neural Information Processing Systems.

38. Mou, L., Meng, Z., Yan, R., Li, G., Xu, Y., Zhang, L., & Jin, Z. (2016). How Transferable are Neural Networks in NLP Applications? Proceedings of 2016 Conference on Empirical Methods in Natural Language Processing.

39. Xie, Z., Wang, S. I., Li, J., Levy, D., Nie, A., Jurafsky, D., & Ng, A. Y. (2017). Data Noising as Smoothing in Neural Network Language Models. In Proceedings of ICLR 2017.

40. Nie, A., Bennett, E. D., & Goodman, N. D. (2017). DisSent: Sentence Representation Learning from Explicit Discourse Relations. arXiv Preprint arXiv:1710.04334. Retrieved from http://arxiv.org/abs/1710.04334

原文連結:http://ruder.io/requests-for-research/

相關文章