本週學術界矚目的焦點,無疑是在泰國曼谷舉行的 ACL 2024 頂會。這場盛會吸引了全球眾多傑出的研究者,大家匯聚一堂,共同探討和分享最新學術成果。
官方公佈的資料顯示,本屆 ACL 共收到近 5000 篇論文投稿,其中 940 篇被主會錄用,168 篇工作入選大會口頭報告(Oral),錄取率低於 3.4%,這當中,位元組跳動共有 5 篇成果中選 Oral。
在 8 月 14 日下午的 Paper Awards 環節,位元組跳動旗下成果《G-DIG: Towards Gradient-based DIverse and high-quality Instruction Data Selection for Machine Translation》被主辦方官宣入選 Outstanding Paper(1/35)。
ACL 2024 現場照片
回溯 ACL 2021,位元組跳動曾摘下唯一一篇最佳論文桂冠,是 ACL 成立 59 年以來,中國科學家團隊第 2 次摘得最高獎項!
為深入探討今年的前沿研究成果,我們特意邀請位元組跳動論文的核心工作者解讀分享。8 月 20 日下週二 19:00-21:00,「位元組跳動 ACL 2024 前沿論文分享會」線上開播!
豆包大語言模型研究團隊負責人王明軒,將攜手位元組跳動多位研究員黃志超、鄭在翔、李朝偉、張欣勃、及 Outstanding Paper 神秘嘉賓,分享 ACL 部分精彩中選成果,研究方向涉及自然語言處理、語音處理、多模態學習、大模型推理等領域,歡迎預約!
活動議程
精選論文解讀
RepCodec:一種用於語音離散化的語音表示編解碼器 論文地址:https://arxiv.org/pdf/2309.00169
隨著大型語言模型(LLMs)近期的快速發展,離散語音標記化在將語音注入 LLMs 中發揮重要作用。然而,這種離散化導致資訊的丟失,從而損害整體效能。為提高這些離散語音標記的效能,我們提出了 RepCodec,這是一種用於語義語音離散化的新型語音表示編解碼器。
DINOISER:透過噪聲操縱增強的擴散條件序列生成模型 論文地址:https://arxiv.org/pdf/2302.10025
雖然擴散模型在生成諸如影像和音訊等連續訊號方面取得了巨大成功,但在學習像自然語言這樣的離散序列資料仍然存在困難。儘管最近一系列文字擴散模型透過將離散狀態嵌入為連續狀態隱空間來規避離散性這一挑戰,但它們的生成質量仍然不盡人意。
為了理解這一點,我們首先深入分析基於擴散模型的序列生成模型的訓練過程,並確定了它們的三個嚴重問題:(1)學習失敗;(2)缺乏可擴充套件性;(3)忽略條件訊號。我們認為這些問題可以歸結為嵌入空間中離散性未完全消除的缺陷,其中噪聲的規模起決定性作用。
在該工作中,我們提出了 DINOISER,透過操縱噪聲來增強用以序列生成的擴散模型。我們在訓練階段以一種受最優傳輸啟發的方式,自適應地確定取樣噪聲規模的範圍,並在推理階段鼓勵該模型透過放大噪聲規模來更好地利用條件訊號。實驗表明,基於所提出的有效的訓練和推理策略,DINOISER 在多個條件序列建模基準上優於先前擴散序列生成模型的基線,進一步的分析也驗證了 DINOISER 可以更好地利用條件訊號來控制其生成過程。
透過減少冗餘加快視覺條件語言生成的訓練 論文地址:https://arxiv.org/pdf/2310.03291
StreamVoice:用於實時零樣本語音轉換的可流式上下文感知語言建模
論文地址:https://arxiv.org/pdf/2401.11053
在該工作中,我們提出 StreamVoice,一個新的基於流式 LM 的零樣本語音轉換模型,實現針對任意說話人和輸入語音的實時轉換。具體來說,為了實現流式能力,StreamVoice 使用上下文感知的完全因果 LM 以及時序無關的聲學預測器,同時自迴歸過程中交替處理語義和聲學特徵消除了對完整源語音的依賴。
為了解決流式場景下不完整上下文所導致的效能下降,透過兩種策略來增強 LM 對於未來和歷史的上下文感知能力:1)教師引導的上下文預知(teacher-guided context foresight),透過教師模型來總結當下和未來準確的語義來指導模型對缺失上下文的預測;2)語義掩蔽策略,鼓勵模型從先前損壞的語義輸入實現聲學預測,增強對於歷史上下文的學習能力。實驗表明,StreamVoice 具有流式轉換能力,同時實現了接近非流式 VC 系統的零樣本效能。
G-DIG:致力於基於梯度的機器翻譯多樣化和高質量指令資料選擇 論文地址:https://arxiv.org/pdf/2405.12915
Overview of G-DIG
具體來說,我們藉助影響函式和一個小型高質量種子資料集,選擇對模型產生有益影響的訓練示例作為高質量示例。此外,為了增強訓練資料的多樣性,我們透過對它們的梯度進行聚類和重新取樣,最大程度地增加它們對模型影響的多樣性。在 WMT22 和 FLORES 翻譯任務上的大量實驗證明了我們方法的優越性,深入的分析進一步驗證了其有效性和通用性。
GroundingGPT:語言增強的多模態 Grounding 模型 論文地址:https://arxiv.org/pdf/2401.06071
多模態大語言模型在不同模態的各種任務中都展示出了出色的效能。然而此前的模型主要強調捕獲多模態輸入的全域性資訊,因此這些模型缺乏有效理解輸入資料中細節的能力,在需要對輸入細緻理解的任務中表現不佳,同時這些模型大多存在嚴重的幻覺問題,限制了其廣泛使用。
為了解決這一問題,增強多模態大模型在更廣泛任務中的通用性,我們提出了 GroundingGPT,一種能夠實現對圖片、影片、音訊不同粒度理解的多模態模型。我們提出的模型除了捕獲全域性資訊外,還擅長處理需要更精細理解的任務,例如模型能夠精確定點陣圖像中的特定區域或影片中的特定時刻。為了實現這一目標,我們設計了多樣化的資料集構建流程,從而構造了一個多模態、多粒度的訓練資料集。在多個公開 benchmark 上的實驗證明了我們模型的通用性和有效性。
ReFT:基於強化微調的推理 論文地址:https://arxiv.org/pdf/2401.08967
一種常見的增強大型語言模型(LLMs)推理能力的方法是使用思維鏈(CoT)標註資料進行有監督微調(SFT)。然而,這種方法並沒有表現出足夠強的泛化能力,因為訓練僅依賴於給定的 CoT 資料。具體地,在數學問題的相關資料集中,訓練資料中每個問題通常只有一條標註的推理路徑。對於演算法來說,如果能針對一個問題學習到多種標註的推理路徑,會有更強的泛化能力。
Comparison between SFT and ReFT on the presence of CoT alternatives