1篇Outstanding、5篇Oral!位元組跳動今年ACL這麼猛? 來直播間聊聊!

机器之心發表於2024-08-15

本週學術界矚目的焦點,無疑是在泰國曼谷舉行的 ACL 2024 頂會。這場盛會吸引了全球眾多傑出的研究者,大家匯聚一堂,共同探討和分享最新學術成果。

官方公佈的資料顯示,本屆 ACL 共收到近 5000 篇論文投稿,其中 940 篇被主會錄用,168 篇工作入選大會口頭報告(Oral),錄取率低於 3.4%,這當中,位元組跳動共有 5 篇成果中選 Oral。

在 8 月 14 日下午的 Paper Awards 環節,位元組跳動旗下成果《G-DIG: Towards Gradient-based DIverse and high-quality Instruction Data Selection for Machine Translation》被主辦方官宣入選 Outstanding Paper(1/35)。

圖片

ACL 2024 現場照片

回溯 ACL 2021,位元組跳動曾摘下唯一一篇最佳論文桂冠,是 ACL 成立 59 年以來,中國科學家團隊第 2 次摘得最高獎項!

為深入探討今年的前沿研究成果,我們特意邀請位元組跳動論文的核心工作者解讀分享。8 月 20 日下週二 19:00-21:00,「位元組跳動 ACL 2024 前沿論文分享會」線上開播!

豆包大語言模型研究團隊負責人王明軒,將攜手位元組跳動多位研究員黃志超、鄭在翔、李朝偉、張欣勃、及 Outstanding Paper 神秘嘉賓,分享 ACL 部分精彩中選成果,研究方向涉及自然語言處理語音處理多模態學習、大模型推理等領域,歡迎預約!

活動議程

圖片

圖片

精選論文解讀

圖片
RepCodec:一種用於語音離散化的語音表示編解碼器
論文地址:https://arxiv.org/pdf/2309.00169

隨著大型語言模型(LLMs)近期的快速發展,離散語音標記化在將語音注入 LLMs 中發揮重要作用。然而,這種離散化導致資訊的丟失,從而損害整體效能。為提高這些離散語音標記的效能,我們提出了 RepCodec,這是一種用於語義語音離散化的新型語音表示編解碼器。

圖片 Framework of RepCodec

與重建原始音訊的音訊編解碼器不同,RepCodec 透過從諸如 HuBERT 或 data2vec 等語音編碼器重建語音表示來學習 VQ 碼本。語音編碼器、編解碼器編碼器和VQ碼本共同形成了一個將語音波形轉換為語義標記的流程。大量實驗表明,RepCodec 憑藉其增強的資訊保留能力,在語音理解和生成方面顯著優於廣泛使用的 k-means 聚類方法。此外,這種優勢在各種語音編碼器和語言中都存在,肯定了 RepCodec 的魯棒性。該方法可以促進語音處理方面的大型語言模型研究。
圖片
DINOISER:透過噪聲操縱增強的擴散條件序列生成模型
論文地址:https://arxiv.org/pdf/2302.10025

雖然擴散模型在生成諸如影像和音訊等連續訊號方面取得了巨大成功,但在學習像自然語言這樣的離散序列資料仍然存在困難。儘管最近一系列文字擴散模型透過將離散狀態嵌入為連續狀態隱空間來規避離散性這一挑戰,但它們的生成質量仍然不盡人意。

為了理解這一點,我們首先深入分析基於擴散模型的序列生成模型的訓練過程,並確定了它們的三個嚴重問題:(1)學習失敗;(2)缺乏可擴充套件性;(3)忽略條件訊號。我們認為這些問題可以歸結為嵌入空間中離散性未完全消除的缺陷,其中噪聲的規模起決定性作用。

在該工作中,我們提出了 DINOISER,透過操縱噪聲來增強用以序列生成的擴散模型。我們在訓練階段以一種受最優傳輸啟發的方式,自適應地確定取樣噪聲規模的範圍,並在推理階段鼓勵該模型透過放大噪聲規模來更好地利用條件訊號。實驗表明,基於所提出的有效的訓練和推理策略,DINOISER 在多個條件序列建模基準上優於先前擴散序列生成模型的基線,進一步的分析也驗證了 DINOISER 可以更好地利用條件訊號來控制其生成過程。

圖片
透過減少冗餘加快視覺條件語言生成的訓練
論文地址:https://arxiv.org/pdf/2310.03291
我們推出了 EVLGen,這是一個為具有高計算需求的視覺條件語言生成模型的預訓練而設計的簡化框架,利用了凍結的預訓練大型語言模型(LLMs)。
圖片
Overview of the EVLGen

在視覺語言預訓練(VLP)中的常規方法通常涉及一個兩階段的最佳化過程:一個初始的資源密集型階段致力於通用的視覺語言表示學習,重點在於提取和整合相關的視覺特徵。隨後是一個後續階段,強調視覺和語言模態之間的端到端對齊。我們新穎的單階段、單損失框架透過在訓練期間逐漸合併相似的視覺標記,繞過了計算要求很高的第一個訓練階段,同時避免了 BLIP-2 型別模型的單階段訓練所導致的模型崩潰。逐漸合併的過程有效地壓縮了視覺資訊,同時保留了語義豐富性,在不影響效能的情況下實現了快速收斂

實驗結果表明,我們的方法將視覺語言模型的訓練速度提高了 5 倍,而對整體效能沒有明顯影響。此外,我們的模型僅使用 1/10 的資料就顯著縮小與當前視覺語言模型的效能差距。最後,展示了我們的影像 - 文字模型如何透過新穎的軟注意力時間,標記上下文模組無縫適應影片條件語言生成任務。

圖片

StreamVoice:用於實時零樣本語音轉換的可流式上下文感知語言建模

論文地址:https://arxiv.org/pdf/2401.11053

流式零樣本語音轉換(streaming zero-shot voice conversion)是指能夠實時將輸入語音轉換成任意說話人的語音,且僅需要該說話人一句語音作為參考,且無需額外的模型更新。現有的零樣本語音轉換方法通常是為離線系統設計,難以滿足實時語音轉換應用對於流式能力的需求。近期基於語言模型(language model, LM)的方法在零樣本語音生成(包括轉換)上展現出卓越的效能,但是需要整句處理而侷限於離線場景。
圖片 The overall architecture for StreamVoice

在該工作中,我們提出 StreamVoice,一個新的基於流式 LM 的零樣本語音轉換模型,實現針對任意說話人和輸入語音的實時轉換。具體來說,為了實現流式能力,StreamVoice 使用上下文感知的完全因果 LM 以及時序無關的聲學預測器,同時自迴歸過程中交替處理語義和聲學特徵消除了對完整源語音的依賴。

為了解決流式場景下不完整上下文所導致的效能下降,透過兩種策略來增強 LM 對於未來和歷史的上下文感知能力:1)教師引導的上下文預知(teacher-guided context foresight),透過教師模型來總結當下和未來準確的語義來指導模型對缺失上下文的預測;2)語義掩蔽策略,鼓勵模型從先前損壞的語義輸入實現聲學預測,增強對於歷史上下文的學習能力。實驗表明,StreamVoice 具有流式轉換能力,同時實現了接近非流式 VC 系統的零樣本效能。

圖片
G-DIG:致力於基於梯度的機器翻譯多樣化和高質量指令資料選擇
論文地址:https://arxiv.org/pdf/2405.12915
大型語言模型(LLMs)在一般場景中展現出了非凡的能力。指令微調使它們能夠在各種任務中與人類保持一致。然而,指令資料的多樣性和質量仍然是指令微調的兩個主要挑戰。對此,我們提出了一種新穎的基於梯度的方法,為機器翻譯自動選擇高質量和多樣化的指令微調資料。我們的關鍵創新在於分析單個訓練示例在訓練過程中如何影響模型。

圖片

Overview of G-DIG

具體來說,我們藉助影響函式和一個小型高質量種子資料集,選擇對模型產生有益影響的訓練示例作為高質量示例。此外,為了增強訓練資料的多樣性,我們透過對它們的梯度進行聚類和重新取樣,最大程度地增加它們對模型影響的多樣性。在 WMT22 和 FLORES 翻譯任務上的大量實驗證明了我們方法的優越性,深入的分析進一步驗證了其有效性和通用性。

圖片

GroundingGPT:語言增強的多模態 Grounding 模型
論文地址:https://arxiv.org/pdf/2401.06071

多模態大語言模型在不同模態的各種任務中都展示出了出色的效能。然而此前的模型主要強調捕獲多模態輸入的全域性資訊,因此這些模型缺乏有效理解輸入資料中細節的能力,在需要對輸入細緻理解的任務中表現不佳,同時這些模型大多存在嚴重的幻覺問題,限制了其廣泛使用。

為了解決這一問題,增強多模態大模型在更廣泛任務中的通用性,我們提出了 GroundingGPT,一種能夠實現對圖片、影片、音訊不同粒度理解的多模態模型。我們提出的模型除了捕獲全域性資訊外,還擅長處理需要更精細理解的任務,例如模型能夠精確定點陣圖像中的特定區域或影片中的特定時刻。為了實現這一目標,我們設計了多樣化的資料集構建流程,從而構造了一個多模態、多粒度的訓練資料集。在多個公開 benchmark 上的實驗證明了我們模型的通用性和有效性。

圖片

ReFT:基於強化微調的推理
論文地址:https://arxiv.org/pdf/2401.08967

一種常見的增強大型語言模型(LLMs)推理能力的方法是使用思維鏈(CoT)標註資料進行有監督微調(SFT)。然而,這種方法並沒有表現出足夠強的泛化能力,因為訓練僅依賴於給定的 CoT 資料。具體地,在數學問題的相關資料集中,訓練資料中每個問題通常只有一條標註的推理路徑。對於演算法來說,如果能針對一個問題學習到多種標註的推理路徑,會有更強的泛化能力。

圖片Comparison between SFT and ReFT on the presence of CoT alternatives

為解決這個挑戰,以數學問題為例,我們提出了一種簡單而有效的方法,稱為強化微調(Reinforced Fine-Tuning,ReFT),以增強 LLMs 推理時的泛化能力。ReFT 首先使用 SFT 對模型進行預熱,然後採用線上強化學習(在該工作中具體是 PPO 演算法)進行最佳化,即對給定的問題自動取樣大量的推理路徑,根據真實答案獲取獎勵,以進一步微調模型。

在 GSM8K、MathQA 和 SVAMP 資料集上的大量實驗表明,ReFT 顯著優於 SFT,並且透過結合多數投票和重新排序等策略,可以進一步提升模型效能。值得注意的是,這裡 ReFT 僅依賴與 SFT 相同的訓練問題,而不依賴於額外或增強的訓練問題。這表明 ReFT 具有優越的泛化能力。

期待你的互動提問

直播時間:2024 年 8 月 20 日(週二) 19:00-21:00
直播平臺:微信影片號【豆包大模型團隊】、小紅書號【豆包研究員】

歡迎你填寫問卷告訴我們,關於 ACL 2024 論文你感興趣的問題,線上和多位研究員暢聊!
圖片
豆包大模型團隊持續熱招中,歡迎點選此連結,瞭解團隊招聘相關資訊。

相關文章