微軟亞洲研究院NLP與語音領域2019-2020推薦論文列表

微软研究院AI头条發表於2020-01-31

原文網址 : https://www.jiqizhixin.com/articles/2020-01-31-6

微軟

1. Unified Language Model Pre-training for Natural Language Understanding and Generation

論文連結：https://arxiv.org/abs/1905.03197

程式碼/模型 (UniLM): https://github.com/microsoft/unilm

該工作將雙向、單向、序列到序列的語言模型進行了統一，透過共享引數對多種語言模型進行學習，使得同一個預訓練模型可以同時支援自然語言理解及自然語言生成的下游任務。此論文發表於NeurlPS 2019。

2. Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks

論文連結：https://arxiv.org/abs/1909.00964

該論文提出跨語言預訓練模型Unicoder，透過設計5種不同的跨語言預訓練任務，在XNLI和XQA任務上取得了state-of-the-art的效果。該論文已在EMNLP 2019上發表。

3. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

論文連結：https://arxiv.org/abs/1908.06066

該論文提出跨模態預訓練模型Unicoder-VL，透過設計3種不同的跨模態預訓練任務，在MSCOCO和Flicker圖-文搜尋任務上取得了state-of-the-art的效果。該論文已在AAAI 2020上發表。

4. VL-BERT: Pre-training of Generic Visual-Linguistic Representations

論文連結：https://arxiv.org/abs/1908.08530

程式碼/模型 (VL-BERT): https://github.com/jackroos/VL-BERT

該論文提出跨語言預訓練模型VL-BERT，基於單模態和多模態任務進行多工預訓練，在VQA、VCR和referring expression comprehension任務上取得了state-of-the-art的效果。該論文已在ICLR 2020上發表。

5. FastSpeech: Fast, Robust, and Controllable Text to Speech

論文連結：https://arxiv.org/pdf/1905.09263.pdf

該論文提出的非自迴歸深度模型FastSpeech把mel spectrum的生成速度提速270倍，端到端的語音生成速度提速~40倍，實際使用效果非常好。文章發表在NeurIPS 2019。

6. PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network

論文連結：https://arxiv.org/abs/1911.04697

論文中提出了關注相位和諧波的語音增強模型 PHASEN (Phase-and-Harmonics-Aware Speech Enhancement Network)。該模型能夠同時意識到相位資訊以及諧波相關性，從而在 AVSpeech+Audioset 資料集上獲得 1.76dB 的 SDR 提升，超過了其他模型在該資料集上的表現，並且在 Voice Bank + DEMAND 資料集中，四個指標均大幅超過之前的方法，一個指標與之前方法持平。該論文已在AAAI 2020發表。

7. Semantic Mask for Transformer based End-to-End Speech Recognition

論文連結：https://arxiv.org/abs/1912.03010

該論文提出了一種新的針對語音識別的資料增強技術SemanticMask。不同於譜增強（SpecAugment）技術掩碼輸入梅爾譜序列中的隨機長度的某個片段，該方法隨機地掩碼掉某個詞對應的整個片段。由於將該詞的聲學資訊從輸入序列中完全移除，訓練的過程將強迫模型更多的依賴上下文資訊，從而能夠強化語言模型的能力。該方法在Librispeech 960小時和TedLium2的資料集上均能夠顯著的提高模型的效能，達到了當前業內最好的效能。其中在Librispeech 960小時的Test clean 和other上取得了2.28和5.08的WER score。

8. Bridging the Gap between Pre-Training and Fine-Tuning for End-to-End Speech Translation

論文連結：https://arxiv.org/abs/1909.07575

端到端的語音識別模型往往需要使用語音識別和機器翻譯的資料來對編碼器和解碼器進行預訓練，這種預訓練方法存在網路引數浪費，網路功能不匹配，注意力機制無法預訓練等多個問題。為解決這些問題，該論文提出了一種新的串聯編碼網路（TCEN）。TCEN能夠無縫的將語音識別的編碼器，機器翻譯的編碼器和解碼器能夠串聯起來，從而可以顯著的提高階到端語音翻譯的質量。該論文已在AAAI 2020發表。

微軟研究院AI頭條

專注科研19年，盛產黑科技

微軟亞洲研究院NLP領域最新研究一覽
2021-11-20
微軟
OSDI 2020 | 微軟亞洲研究院論文一覽
2020-11-04
微軟
EMNLP 2020 | 微軟亞洲研究院精選論文解讀
2020-11-16
微軟
EMNLP 2019 丨微軟亞洲研究院精選論文解讀
2019-11-05
微軟
NeurlPS 2019丨微軟亞洲研究院精選論文解讀
2019-12-10
微軟
AAAI 2020 | 微軟亞洲研究院6篇精選論文在家看
2020-02-06
AI微軟
NSDI 2019：微軟亞洲研究院最新論文將實現FPGA互聯互通
2019-02-27
微軟FPGA
「乾貨」微軟亞洲研究院推薦的計算機視覺專案清單
2019-08-20
微軟計算機視覺
微軟亞洲研究院副院長：語言智慧的未來
2019-08-15
微軟
微軟亞洲研究院落戶上海！盤點微軟與上海之間的深厚淵源
2018-09-17
微軟
NeurIPS 2020 | 微軟亞洲研究院論文摘錄之強化學習&GAN篇
2020-12-11
微軟強化學習
對偶學習_劉鐵巖_微軟亞洲研究院
2018-03-18
微軟
XiaoIce Band：流行音樂的旋律與編曲生成框架 | KDD論文推薦
2019-04-01
框架
推薦系統論文之序列推薦：KERL
2021-05-17
ICLR2021對比學習（Contrastive Learning）NLP領域論文進展梳理
2022-02-02
ICLRAST
沈向洋：微軟將在今年成立亞洲研究院上海分部
2018-09-17
微軟
微軟亞洲研究院多模態模型NÜWA：以自然語言創造視覺內容
2022-03-10
微軟模型視覺
清華 NLP 團隊推薦：必讀的77篇機器閱讀理解論文
2018-11-01
NLP論文解讀：無需模板且高效的語言微調模型（上）
2022-03-11
模型
如何寫/審AI領域的論文
2020-08-19
AI
北大、微軟亞洲研究院：高效的大規模圖神經網路計算
2018-11-02
微軟神經網路
博鰲亞洲論壇：亞洲減貧報告
2019-09-28
【讀論文】 -- 推薦系統研究綜述
2024-04-10
低程式碼軟體簡介及推薦列表
2023-09-20
前微軟亞洲研究院副院長李世鵬加盟訊飛，任AI研究院聯席院長
2018-05-02
微軟AI
博鰲亞洲論壇：亞洲減貧報告2020
2021-01-12
萬字長文，詳解推薦系統領域經典模型FM因子分解機
2020-11-13
模型
文字摘要論文列表
2020-10-27
本週AI論文良心推薦，你想pick誰？
2018-05-25
AI
mkvtoolnix 分離影片音軌把英語的音軌分離出來 - 軟體推薦
2024-04-16
NLP相關論文綜述
2018-11-26
微軟內部研究資料集正式對外開放，覆蓋NLP、CV等9個領域
2018-06-25
微軟
「推薦系統」領域的最新進展你知道麼？
2019-12-11
【吐血推薦】領域驅動設計學習輸出
2019-06-13
學一手，知乎大V(輪子哥)當年靠它進微軟亞洲研究院
2021-04-09
微軟
推薦系統公平性論文閱讀(二)
2021-10-07
推薦系統公平性論文閱讀(三)
2021-10-07
推薦系統公平性論文閱讀(四)
2021-10-08

微軟亞洲研究院NLP與語音領域2019-2020推薦論文列表

相關文章