今天,騰訊對外正式宣佈,騰訊“混元”AI大模型在MSR-VTT,MSVD,LSMDC,DiDeMo和ActivityNet 五大跨模態視訊檢索資料集榜單中先後取得第一名的成績,實現了該領域的大滿貫。
特別是在MSR-VTT榜單上,“混元”AI大模型將文字-視訊檢索精度提高到55%,領先第二名1.7%,位居行業第一。
圖1:各模型方法在5個公開資料集上指標對比
據悉,這是騰訊首次對外披露“混元”AI大模型的研發進展,該模型包含但不限於:計算機視覺、自然語言處理、多模態內容理解、文案生成、文生視訊等多個方向的超大規模AI智慧模型。“混元”AI大模型基於騰訊太極機器學習平臺進行研發,藉助GPU算力,實現快速的演算法迭代和模型訓練。
近年來,圖文及視訊內容在網際網路內容中所佔比例不斷提高,如何更細粒度的理解視訊內容,融合多個模態的特徵資訊,成為跨模態視訊檢索技術的“重中之重”,在AI領域有深入研究的科技公司紛紛開始在該領域佈局和投入。
MSR-VTT、MSVD、 LSMDC、DiDeMo、ActivityNet是行業內最具權威性的五大跨模態視訊檢索資料集榜單,主辦單位包括微軟、加州大學伯克利、阿卜杜拉國王科技大學等,檢索庫涵蓋了日常生活的諸多場景,已經成為科技企業和研究機構展現AI大模型技術實力的重要的競技場之一。
經過多年研究,騰訊廣告多媒體AI團隊以層次化、細粒度、高精度為目標,提出了“混元“跨模態視訊檢索AI大模型(簡稱HunYuan_tvr)。與業界其他大模型相比,團隊首創了層級化跨模態技術,可將視訊和文字等跨模態資料分別做拆解,通過相似度分析,綜合考量並提取視訊和文字之間層次化的語義關聯。
圖2:HunYuan_tvr模型架構示意圖
這種“先分層、再關聯、後檢索”的互動方法,一方面可捕捉多模態(文字、視訊)內部的細粒度語義資訊,另一方面也能有效地檢索跨模態資料間的關聯性,從而大大提升了檢索的精確度。
精確度的大幅提升代表國內在多模態內容理解方面的技術研究取得了新突破,這意味著計算機將進一步貼近人類對視訊內容的理解與認知能力。同時,“混元”AI大模型的優越性及泛化性得到了驗證,將為AI學術研究和工業級應用帶來更多長期價值。
目前,“混元“AI大模型已被廣泛應用到廣告創作、廣告檢索、廣告推薦等騰訊業務場景中。一方面,該模型能夠幫助廣告創作者和騰訊平臺方預測視訊內容與消費者群體之間的興趣關聯,提升創作效率;另一方面,能夠有效提升廣告推薦的精準度,讓內容搜尋和匹配更加精確,有效優化使用者體驗。