1. Unified Language Model Pre-training for Natural Language Understanding and Generation
論文連結:https://arxiv.org/abs/1905.03197
程式碼/模型 (UniLM): https://github.com/microsoft/unilm
該工作將雙向、單向、序列到序列的語言模型進行了統一,透過共享引數對多種語言模型進行學習,使得同一個預訓練模型可以同時支援自然語言理解及自然語言生成的下游任務。此論文發表於NeurlPS 2019。
2. Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks
論文連結:https://arxiv.org/abs/1909.00964
該論文提出跨語言預訓練模型Unicoder,透過設計5種不同的跨語言預訓練任務,在XNLI和XQA任務上取得了state-of-the-art的效果。該論文已在EMNLP 2019上發表。
3. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
論文連結:https://arxiv.org/abs/1908.06066
該論文提出跨模態預訓練模型Unicoder-VL,透過設計3種不同的跨模態預訓練任務,在MSCOCO和Flicker圖-文搜尋任務上取得了state-of-the-art的效果。該論文已在AAAI 2020上發表。
4. VL-BERT: Pre-training of Generic Visual-Linguistic Representations
論文連結:https://arxiv.org/abs/1908.08530
程式碼/模型 (VL-BERT): https://github.com/jackroos/VL-BERT
該論文提出跨語言預訓練模型VL-BERT,基於單模態和多模態任務進行多工預訓練,在VQA、VCR和referring expression comprehension任務上取得了state-of-the-art的效果。該論文已在ICLR 2020上發表。
5. FastSpeech: Fast, Robust, and Controllable Text to Speech
論文連結:https://arxiv.org/pdf/1905.09263.pdf
該論文提出的非自迴歸深度模型FastSpeech把mel spectrum的生成速度提速270倍,端到端的語音生成速度提速~40倍,實際使用效果非常好。文章發表在NeurIPS 2019。
6. PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network
論文連結:https://arxiv.org/abs/1911.04697
論文中提出了關注相位和諧波的語音增強模型 PHASEN (Phase-and-Harmonics-Aware Speech Enhancement Network)。該模型能夠同時意識到相位資訊以及諧波相關性,從而在 AVSpeech+Audioset 資料集上獲得 1.76dB 的 SDR 提升,超過了其他模型在該資料集上的表現,並且在 Voice Bank + DEMAND 資料集中,四個指標均大幅超過之前的方法,一個指標與之前方法持平。該論文已在AAAI 2020發表。
7. Semantic Mask for Transformer based End-to-End Speech Recognition
論文連結:https://arxiv.org/abs/1912.03010
該論文提出了一種新的針對語音識別的資料增強技術SemanticMask。不同於譜增強(SpecAugment)技術掩碼輸入梅爾譜序列中的隨機長度的某個片段,該方法隨機地掩碼掉某個詞對應的整個片段。由於將該詞的聲學資訊從輸入序列中完全移除,訓練的過程將強迫模型更多的依賴上下文資訊,從而能夠強化語言模型的能力。該方法在Librispeech 960小時和TedLium2的資料集上均能夠顯著的提高模型的效能,達到了當前業內最好的效能。其中在Librispeech 960小時的Test clean 和other上取得了2.28和5.08的WER score。
8. Bridging the Gap between Pre-Training and Fine-Tuning for End-to-End Speech Translation
論文連結:https://arxiv.org/abs/1909.07575
端到端的語音識別模型往往需要使用語音識別和機器翻譯的資料來對編碼器和解碼器進行預訓練,這種預訓練方法存在網路引數浪費,網路功能不匹配,注意力機制無法預訓練等多個問題。為解決這些問題,該論文提出了一種新的串聯編碼網路(TCEN)。TCEN能夠無縫的將語音識別的編碼器,機器翻譯的編碼器和解碼器能夠串聯起來,從而可以顯著的提高階到端語音翻譯的質量。該論文已在AAAI 2020發表。