Datawhale AI 夏令營-天池Better Synth多模態大模型資料合成挑戰賽-task2探索與進階(更新中)

Xu_Lin發表於2024-08-15

在大資料、大模型時代,隨著大模型發展,網際網路資料漸盡且需大量處理標註,為新模型訓練高效合成優質資料成為新興問題。“天池 Better Synth - 多模態大模型資料合成挑戰賽”應運而生,旨在探究合成資料對多模態大模型訓練的影響及高效合成方法策略,推動多模態大模型資料合成創新。比賽關注圖片理解任務,要求在給定種子資料集和計算量約束下,透過高效方法生成更優資料以訓練模型。競賽使用 Data-Juicer 系統助力參賽者,NVIDIA 的相關開源庫讓選手能探索高效合成大量優質資料。“Better Synth”是系列賽第四場,為專業人員提供舞臺,引領多模態大模型開源共享發展。

天池Better Synth多模態大模型資料合成挑戰賽

相關文章