驅動產學研深度融合,「未來高新影片智慧技術中心創新聯合體 」在快手揭牌

机器之心發表於2024-03-08

音影片、人工智慧技術是推動數字經濟高質量發展的技術基石,產學研多領域不斷提升創新能力,加快最佳化迭代影片智慧技術,對推動全行業的數字化、影片化、智慧化轉型具有重大意義。

3 月 1 日,未來高新影片智慧技術創新中心成果彙報會暨創新聯合體揭牌儀式在北京快手科技舉辦。

來自北京市科委、中關村管委會、市經信局、海淀區政府的相關領導及高校和科研院所的專家學者與會,共同見證高新影片智慧技術的最新成果,並就加強創新聯合體機制建設、完善企業主導的產學研深度融合創新和未來行業發展趨勢等展開深入研討。

發揮平臺科技企業優勢

探索產學研協同新模式

據瞭解,2022 年快手入選北京市首批企業技術創新中心,獲得市科委專項支援牽頭建設 「未來高新影片智慧技術創新中心」。作為北京市支援產業創新重大需求的新型創新機構,該技術創新中心將透過與清華大學、中國人民大學、國家廣播電視總局廣播電視規劃院、中國資訊通訊研究院雲端計算與大資料研究所等組建創新聯合體,重點聚焦顛覆性創新成果,引領產業技術變革方向,影響產業未來發展態勢的技術領域,體系化推進技術攻關,推動跨領域技術交叉融合創新,持續帶動產業最佳化升級。

圖片

出席會議的北京市科委、中關村管委會副主任龔維冪表示,快手是短影片領域知名龍頭企業,在推動短影片和直播行業的數字化、智慧化升級方面,發揮了重要作用。希望快手依託該技術創新中心,不斷完善創新和產業鏈條,不斷做大做強,加強原始創新和關鍵核心技術攻堅,進一步發揮平臺科技企業的優勢,積極探索產學研協同新模式。

經過不斷探索實踐,未來高新影片智慧技術創新中心順利透過第一年度驗收。技術創新中心主任、快手高階副總裁、研發線負責人於冰介紹,在過去一年,快手進一步夯實短影片基礎,持續投入音影片、晶片、內容智慧生產、智慧推薦等核心技術,提效降本,並不斷賦能產業,推動各行各業影片化、數字化轉型。

圖片

編解碼作為音影片領域最核心的技術,快手持續突破,自研 KVC 編解碼標準,相比開源 X265 方案,在畫質持平甚至更優的情況下,可以實現 50% 以上的位元速率下降,進而大幅節省了網路頻寬資源。

快手也自研了編解碼晶片 SL200,是目前行業中壓縮率最高的編解碼晶片,相比行業最優競品,該晶片在相同影片質量下位元速率降低接近 20%,在直播和短影片場景下帶來成本和體驗的雙重收益。

在網路傳輸領域,快手設計了一套全新的傳輸協議 CMTP,大幅降低使用者播放卡頓,並且正在與中國通訊標準化協會(CCSA)合作進行行業標準的制定和推廣。

當前,技術創新中心孵化的軟硬結合的編碼方案和新一代網路傳輸協議,不僅在快手業務中創造了巨大收益,也對外面向行業客戶的短影片和直播業務進行落地,創造了價值的轉化。

業務場景的升級也驅動快手不斷進行技術創新。影片從二維視角向三維體驗進化,催生使用者對全景影片的體驗需求,快手 6DoF 自由視角技術在亞運會擊劍比賽和快手村 BA 中亮相,取得了很好的反饋,快手也讓黑科技貼近了使用者的生活。於冰透露,該技術有可能將應用於巴黎奧運會,持續為體育賽事注入硬科技力量。

同樣,在數字人領域,快手打造官方主播 「關小芳」,主播粉絲超過 180 萬,幫助蒙牛打造虛擬員工 「奶思」,也透過孿生數字人技術商用促進電商等企業做業務創新,帶動數字經濟的發展。活動現場,於冰邀請 「關小芳」和背後的主播同框與現場觀眾互動,透過一曲國風舞蹈讓現場觀眾感受數字人的真實感以及背後的技術魅力。

圖片

此外,快手還自研萬億引數的精排模型,在演算法推薦領域發表 100 + 篇國際頂級學術會議論文,其中不乏獲得 CIKM'22 最佳論文獎、SIGIR'23 最佳論文候選獎的優秀成果。

於冰指出,學術界與工業界應當密切合作雙向奔赴,學術界培養高水平有創新力的人才,提出前瞻性的技術方法,而工業界擁有大量的業務場景、資料資源和算力資源,兩者優勢深度結合,可以把技術價值發揮到最大,技術既沉澱出頂尖科技成果,又產生巨大的產業經濟價值,實現 1+1>2 的效應。快手目前與清華、人大、中科大北京研究院成立有聯合研究院和實驗室,與全球 20 多所頂級高校科研機構展開科研合作,每年投入數千萬科研經費,不僅為學術界帶來豐富的工業界落地成果,也為快手創造了不錯的業務收益。

未來高新影片智慧技術創新中心副主任、快手技術副總裁、多媒體與大模型部負責人張迪介紹了快手大模型的佈局和進展。一直以來,內容理解技術、內容生成技術和推薦技術是快手核心 AI 技術。面對大模型的衝擊,去年三月底,快手正式啟動了新的 AI 戰略,重點打造語言大模型、視覺生成大模型和推薦大模型。

目前,快手語言大模型已釋出了 130 億引數版本、660 億引數版本和 1750 億引數版本,1750 億引數版本內測效果非常接近 GPT-4 水平;在視覺生成方向,快手大模型影像生成能力內測效果對比 MidJourneyV5 有多方面優勢。

張迪認為,鑑於 AI 大模型強大的內容理解與生成能力,原有的核心業務都值得進行一次重構,引入更多的創新能力。

圖片

伴隨著模型能力提升,快手也結合自有業務形態進行了很多模型應用的創新嘗試。快手推出的 AI 機器人 「AI 小快」,在業內最早落地評論區智慧互動場景;內容生產側,快手依託可圖大模型打造多款特效內容,實現影像特效模型的通用;此外,快手還在站內搜尋場景下推出了 AI 對話功能。張迪認為,如果影片生成可以做到像影像生成這樣的通用能力,將大幅增加影片內容供給,改變特效生產模式,甚至顛覆整個創作者生態。

前沿技術賦能產業發展

影片生成迎來新機遇與新挑戰

技術的突破與進步是快手實現高速發展的關鍵動力,會上,中國人民大學高瓴人工智慧學院執行院長、資訊學院院長文繼榮分享了基於 Transformer 的擴散式影片生成模型 VDT。VDT 模型不僅可以無縫地處理無條件影片生成和影片預測任務,還能夠透過簡單地調整輸入特徵,擴充套件到更廣泛的影片生成領域,如影片幀插值等。文繼榮教授表示,在快速發展的影片生成領域內,希望高校學術發展能和企業進行深入合作,真正在主賽道上走得更遠。

在技術發展過程中,資料是重要的資產沉澱。中國資訊通訊研究院雲端計算與大資料研究所所長何寶宏分享道,資料正在走向資產化,透過業務貫通、二次價值數智決策、資料流通賦值三個階段,實現資料價值的深度釋放。隨著資料資產的價值不斷被挖掘,快手技術發展中的資料沉澱也將向更多場景、更多行業賦能,最大化資料的應用價值。

當前,AI 賦能是技術突破的重要課題,在 AI 賦能網際網路音影片服務方面,清華大學電腦科學與技術系教授孫立峰表示,快手等網際網路音影片服務平臺上,系統、內容、使用者三要素具有規模大、強動態性等特點。用 AI 對這三要素進行更加智慧的理解、做相應的預測,才能夠實現高效、精準的決策智慧,這是 AI 賦能網際網路音影片服務的一個基本思路。

隨著高新影片不斷髮展成熟,相關行業發展標準也更加完善。國家廣播電視總局廣播電視規劃院製播所副所長王惠明介紹道,廣電總局持續透過釋出 5G 高新影片系列技術白皮書、舉辦高新影片創新應用大賽等形式,推進高新影片產業發展,併為超高畫質電視、互動影片、VR 影片、沉浸式影片、雲遊戲、三維聲音訊等各形態高新影片制定了相關標準體系。

圖片

在會議的圓桌環節,文繼榮、孫立峰、王惠明、張迪進一步圍繞「影片生成的機遇與挑戰」展開討論。對於影片生成技術對內容產業發展帶來的變化,張迪表示,隨著模型效能的提升,AI 技術在影片創作中的輔助性作用也將產生質變,帶來整個創作者創作方式的變化。王惠明也表示,AI 生成影片技術能夠高效助力影片創作者,提升行業的內容量。

在影片生成技術促進內容生產的同時,AI 生成影片的內容治理問題也成為業內討論的重點。文繼榮提出,影片比文字具有更強的傳播力和影響力,隨著影片生成技術不斷髮展,影片生成治理問題也迫在眉睫。王惠明表示,未來對影片生成技術的監管需要更全方位,在影片生產、釋出與傳播、版權管理等多方面和多環節,須配備相關政策措施。

伴隨著創新聯合體正式成立,未來高新影片智慧技術創新中心將以市場需求為導向,繼續搭建高水平科創平臺,重點聚焦顛覆性創新成果、引領產業技術變革方向、影響產業未來發展態勢的技術領域;同時加強上下游企業協同,進一步完善產學研深度融合創新機制,推動跨領域技術交叉融合創新,持續帶動產業最佳化升級。

相關文章