小紅書這場大模型論文分享會,集齊了四大國際頂會的作者

机器之心發表於2024-06-21

大模型正引領新一輪的研究熱潮,業界和學術界都湧現出了眾多的創新成果。

小紅書技術團隊也在這一浪潮中不斷探索,多篇論文研究成果在 ICLR、ACL、CVPR、AAAI、SIGIR、WWW 等國際頂會上頻頻亮相。

在大模型與自然語言處理的交匯處,我們發現了哪些新機遇和挑戰?

對於大模型,有哪些有效的評測方法?它又如何更好地融入到應用場景中的呢?

6 月 27 日 19:00-21:30,【REDtech 來了】第十一期《小紅書 2024 大模型前沿論文分享》線上開播

REDtech 特別邀請了小紅書社群搜尋團隊來到直播間,他們將分享 6 篇小紅書在 2024 年發表的大模型研究論文。小紅書精排 LTR 負責人馮少雄,攜手多位頂會論文作者李易為、王星霖、袁沛文、張超等人,共同探討最新的大模型解碼與蒸餾技術、大模型評測方法,以及大模型在小紅書平臺上的實際應用。小紅書這場大模型論文分享會,集齊了四大國際頂會的作者

預約直播,多篇論文一作作者線上與你交流!你將獲得關於大模型技術的最新見解,探討未來的發展趨勢,並交流如何利用這些前沿技術提升使用者體驗,推動平臺智慧化發展。

活動議程圖片

01 Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning / 入選 ICLR 2024

針對大模型多步推理中高成本問題的早停自洽性方法 | 分享人:李易為

自洽性方法(Self-Consistency,SC)一直是思維鏈推理中廣泛使用的解碼策略,透過生成多個思維鏈並取多數答案作為最終答案,來提高模型的效能。但它是一種高成本的方法,需要進行預設大小的多次取樣。在 ICLR 2024 上,小紅書提出一種簡單且可擴充套件的取樣過程 —— 早停自洽性方法(Early-Stopping Self-Consistency,ESC),它能在不犧牲效能的情況下,大幅度降低 SC 的成本。在此基礎上,團隊進一步推匯出一種 ESC 控制方案,以動態選擇不同任務和模型的效能 - 成本平衡。三種主流推理任務(數學,常識和符號推理)的實驗結果顯示,ESC 在六個基準測試中顯著降低了平均取樣次數,同時幾乎保持原有效能。

論文地址:https://arxiv.org/abs/2401.10480

02 Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation / 入選 ACL 2024

去粗取精:面向自由格式生成任務的細粒度自洽性方法 | 分享人:王星霖

小紅書在 ACL 2024 中提出了 Fine-Grained Self-Consistency (FSC) 方法,能夠顯著提升自洽性方法在自由格式生成任務上的表現。團隊首先透過實驗分析了現有面向自由格式生成任務的自洽性方法的不足來自於粗粒度的共性樣本選擇,其無法有效利用不同樣本細粒度片段之間的共性知識。在此基礎上團隊提出了基於大模型自融合的 FSC 方法,實驗證實其在程式碼生成、摘要生成以及數學推理任務上都取得了顯著更優的表現,同時保持了相當的消耗。

論文地址:https://github.com/WangXinglin/FSC

03 BatchEval: Towards Human-like Text Evaluation / 入選 ACL 2024,領域主席給出滿分評分,並推薦最佳論文

邁向人類水平的文字評測 | 分享人:袁沛文

小紅書在 ACL 2024 中提出了 BatchEval 方法,能夠以更低的開銷達到類人水平的文字評測效果。團隊首先從理論層面分析了現有文字評測方法在評測魯棒性方面的不足來自於評測打分分佈不均勻、在得分整合方面的次優表現源自於評測視角多樣性的缺失。在此基礎上,受人類評測過程中透過樣本間比較來建立更加立體全面、視角多樣的評測基準啟發,類比提出了 BatchEval。與當前最先進的若干方法相比,BatchEval 在評測開銷與評測效果兩方面都取得了顯著更優的表現。

論文地址:https://arxiv.org/abs/2401.00437

04 Poor-Supervised Evaluation for SuperLLM via Mutual Consistency / 入選 ACL 2024

透過互一致性實現準確監督訊號匱乏下的超人水平大語言模型評測 | 分享人:袁沛文

小紅書在 ACL 2024 中提出了 PEEM 方法,其能夠透過模型間的互一致性實現對於超越人類水平的大語言模型的準確評測。團隊首先分析了當前大語言模型迅猛發展的趨勢會加速其在多個方面逐漸達到甚至超越人類水平,在此情況下,人類將難以再提供準確的評測訊號。為實現該場景下的能力評測,團隊提出了以模型間的互一致性為評測訊號的設想,並推匯出了在評測樣本無窮時,如果存在參考模型與待評測模型間預測分佈獨立,則與該參考模型間的一致性可以作為模型能力的準確度量。在此基礎上,團隊提出了基於 EM 演算法的 PEEM 方法,實驗證實其能夠有效緩解現實中上述條件的不充足,從而實現對超越人類水平的大語言模型的準確評測。

論文地址:https://github.com/ypw0102/PEEM

05 Turning Dust into Gold:Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data / 入選 AAAI 2024 Oral

利用負樣本促進大模型推理能力的蒸餾 | 分享人:李易為

語言模型(LLMs)在各種推理任務上表現優異,但其黑盒屬性和龐大引數量阻礙了它在實踐中的廣泛應用。特別是在處理複雜的數學問題時,LLMs 有時會產生錯誤的推理鏈。傳統研究方法僅從正樣本中遷移知識,而忽略了那些帶有錯誤答案的合成資料。在 AAAI 2024 上,小紅書搜尋演算法團隊提出了一個創新框架,首次提出並驗證了負樣本在模型蒸餾過程中的價值,構建一個模型專業化框架,除了使用正樣本外,還充分利用負樣本來提煉 LLM 的知識。該框架包括三個序列化步驟,包括負向協助訓練(NAT)、負向校準增強(NCE)和動態自洽性(ASC),涵蓋從訓練到推理的全階段過程。一系列廣泛的實驗,展示了負向資料在 LLM 知識蒸餾中的關鍵作用。

論文地址:https://arxiv.org/abs/2312.12832

06 NoteLLM: A Retrievable Large Language Model for Note Recommendation / 入選 WWW 2024

基於大語言模型的筆記內容表徵推薦系統分享人:張超

小紅書 APP 每天都有大量新筆記產生,如何有效地將這些新內容推薦給感興趣的使用者呢?基於筆記內容的推薦表徵是緩解筆記冷啟動問題的一種方法,也是眾多下游應用的基礎。近年來,大語言模型因其強大的泛化性和文字理解能力而備受關注。因此,我們希望利用大語言模型構建筆記內容表徵推薦系統,以增強筆記內容的理解。我們從生成增強表徵以及多模態內容表徵兩個角度介紹我們近期的工作。目前該系統已應用於小紅書多個業務場景並取得顯著收益。

論文地址:https://arxiv.org/abs/2403.01744

圖片

直播觀看方式

  • 直播時間:2024 年 6 月 27 日 19:00-21:30

  • 直播平臺:微信影片號【小紅書技術 REDtech】,B 站、抖音、小紅書同名賬號實時直播。小紅書這場大模型論文分享會,集齊了四大國際頂會的作者

同時,直播也將在合作伙伴【極市平臺】、【機器之心】、【Datawhale】微信影片號同步播出。

歡迎你填寫問卷告訴我們,關於大模型你關心的問題,在直播期間與嘉賓深入互動。

圖片

掃描👇下方二維碼進入直播交流群,將第一時間獲取直播連結及開播提醒;可一鍵打包獲取精心整理的【論文 PDF 合集】,還有機會與論文作者直接交流!

圖片

邀請好友預約直播好禮

圖片

小紅書社群搜尋團隊多崗位熱招中,團隊負責小紅書搜尋效果的最佳化和前沿技術的探索,致力於打造中國最大的生活搜尋引擎。期待你的加入!

圖片

相關文章