搜狗聯合清華天工研究院推出ChoreoNet模型:讓數字人隨著音樂翩翩起舞
聲音與AI行為搭配在一起,會發生怎樣的化學反應呢?這一話題,正在成為國內外AI研究比較熱衷的新方向。
比如卡內基·梅隆大學和CMU機器人研究所,就在研究聲音和機器人動作之間的相互作用;國內則從數字人入手,搜狗分身技術團隊聯合清華大學天工智慧計算研究院賈珈老師團隊,率先展開了音訊驅動身體動作的研究。
近日二者共同發表的數字人技術論文《ChoreoNet: 基於舞蹈動作單元的音樂-舞蹈合成框架》,就被2020國際頂級盛會ACM Multimedia錄用為長文。
作為計算機領域諾貝爾獎——圖靈獎的評選機構,ACM(國際計算機學會Association for Computing Machinery)的業界地位不用贅述,旗下的ACM Multimedia也被認為是多媒體技術領域奧運級別的頂級盛會,論文接受率很低。
那麼,能得到頂會的認可,這一新技術究竟有哪些開創性呢?
聞聲起舞,“樂舞合成”是怎樣實現的?
讓數字人根據文字語義做出相對應的面部表情及肢體動作,目前已經有不少成熟的應用,比如AI合成主播。如果再能夠跟隨音訊做出同步、自然的肢體反應,無疑會在多種場景中產生奇妙的化學反應。
不過,隨聲而動這件事的難度在於,背後需要解決的技術問題不少,比如:
傳統音樂與舞蹈合成的方式是基線法,透過人體骨骼關鍵點的對映,但許多關鍵點難以捕捉和預測,就會出現高度冗餘和噪聲,導致合成結果的不穩定、動作節銜接不像真人。
後來,雅爾塔等學者也提出要透過AI的弱監督學習來解決上述問題,但由於缺乏對人類舞蹈經驗知識的瞭解,依然會出現合成不夠自然、情感表達不夠流暢的問題。
另外,由於音樂片段比較長,背後伴隨著成千上萬的動作畫面,需要智慧體記住並對映這種超長的序列也是一大挑戰。
搜狗及清華天工院研究團隊所做的突破,就是將人類專業知識融入演算法,提出了一個模仿人類舞蹈編排的程式ChoreoNet,來根據音樂生成動態優美連貫、非線性高度擬真的舞蹈。
簡單來說,ChoreoNet是將專業舞者的各個動作單元與音樂旋律捕捉並資料化,然後讓AI在其中尋找規律,知道在怎樣的音樂節拍、旋律風格中應該做出怎樣的舞蹈動作,進而形成連貫的動作軌跡。
其中,研究人員共突破了兩個環節:
1.舞蹈知識化。用動作捕捉採集專業的人類舞者是如何根據音樂的節奏、旋律來編排動作的。研究人員收集了4種不同型別(恰恰、華爾茲、倫巴和探戈)的舞蹈資料,數個音樂節拍裁剪出一個編舞動作單元(CAUs) 相對應的片段,形成一個動作控制單元(CA),形成一個音樂與動作的對映序列。
2.之前採集的舞蹈動作只是人體骨骼關鍵點資料,怎樣讓它們之間的連續過渡更加自然呢?研究人員藉助NLP語義理解,讓AI可以根據積累的知識進行實時反應。利用GAN設計了一個運動生成模型,讓AI可以繪製一些舞蹈動作,補上缺失的資料,從而實現舞蹈的平滑過渡,產生自然的效果。
實驗結果證明,與基線法相比,ChoreoNet效能更好,可以生成持續時間較長的結構化控制元件,來生成與音樂匹配的動作,並使其自然連線、情感流暢。
在這一突破中,搜狗對音訊驅動身體動作這一課題的敏銳感知,以及AI分身技術在身體動作及姿態生成方面的加成,無疑是領先技術能力與創新意識的絕佳組合。
持續領跑,搜狗與分身技術的不解之緣
可以看到,ChoreoNet的出現,既帶來了人機互動能力的提升,也給機器學習融入了知識元素。這可以看做是搜狗“分身技術”的一次進階,也側面印證了搜狗以“自然互動+知識計算”為核心的AI技術版圖,正在持續狂奔,也得以積蓄起不斷引領技術方向的勢能。
從2018年首創分身技術之後,搜狗的研發腳步從未停止,持續專注於如何以文字及音訊更好驅動數字人的面部表情及唇動進行研究。相繼在2D/3D數字人領域構建了音畫同步、逼真的面部表情唇動生成及驅動能力。
如何能夠讓數字人更加自然並且富有表現力也是搜狗分身的重點研究方向,其中身體動作以及姿態的表達至關重要。在對數字人的面部驅動達到較高標準後,搜狗將研究重點從面部為主的驅動轉到面部+動作的驅動,重點攻關如何讓肢體動作更具自然表現力。如在今年5月推出的3D AI合成主播身上,不僅有經得起高畫質鏡頭考驗的面部表現,同時實現了以文字語義為驅動的自如行走。
如今,ChoreoNet更進一步,實現了以音訊對AI數字人進行實時驅動。搜狗在業內率先嚐試並取得突破性研發結果的這一舉動,更是一改只能由文字、語義驅動AI分身面部+動作的現狀,為行業帶來了更多的創新可能,搜狗的分身技術理想與實力也躍然紙上。
不斷打造視覺化、能自然互動的AI數字人,搜狗到底想做什麼?
人機互動的未來,與搜狗的技術遠景
迴歸到企業戰略層面,搜狗的AI理念是讓AI賦能於人。透過人機協作,把人從重複性工作中解放出來,更好地解放社會生產力。比如AI主播,就可以讓主持人不再困於朗讀既定內容,可以投身於更具創造性的工作。當然,這一切都要從更自然的人機互動開始,完成一次次交流與觸碰。
而此次ChoreoNet讓數字人跟隨音樂起舞,這個創意的突破不僅僅是技術上夠炫酷,應用空間也非常巨大。
不出意外,搜狗很大可能會將該技術同3D數字人相結合,因為相較2D數字人,3D數字人的肢體靈活性、可塑性驅動更強,從而有更廣泛的應用空間。音訊驅動技術的加入,不僅能豐富搜狗3D數字人在新聞播報、外景採訪的場景,更直接有助於突破融媒體領域、向娛樂、影視等領域落地進軍。可以看到,基於視覺的人機互動會越來越成為主流,比如當前流行的智慧客服、虛擬偶像等等,往往需要大量文字、語義的輸入來進行推理與互動,虛擬偶像的動作也需要捕捉後由人工逐幀進行製作,而改為音訊驅動可以更為直接地實現語音交流,節省製作/計算的步驟與成本。
此外,人類知識體系與機器學習的結合,讓AI能力有極大的提升。透過垂直領域的知識資料進行訓練和學習,從而提供更精準、可靠的服務,大大提升AI客服的接受度。
當然,音訊驅動也可以生成更具人性化的個人秘書,幫助人減輕工作負擔、提高效率的同時,透過音訊識別與判斷來實時反應,表現力更加豐富,讓智慧家居、服務機器人等更好地融入生活環境,在老人關懷、私人助理、兒童陪伴等等場景之中,扮演更積極的角色。
業內有個共識,一般情況下只有對日常生活和技術突破具有巨大影響潛力的研究專案,才會被ACM Multimedia透過和錄取。從這個角度看,搜狗與清華天工院所做的工作,遠遠不只是學術上的突破那麼簡單。當全球科技巨頭都在探索如何用多模態互動締造新玩法、新功能的時候,搜狗已經向前邁出了讓人眼前一亮的步伐。
讓數字人更像人,就能更早地與人類達成親密無間的配合與協作,對於人類和AI來說,同樣重要。也正由於此,世界頂級盛會才會投注認可與鼓勵。下一次,搜狗會為數字人集齊怎樣的能力呢?我們拭目以待。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2713797/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 音樂ChatGPT時刻來臨!「天工SkyMusic」音樂大模型今日啟動邀測ChatGPT大模型
- 騰訊混元聯合港科大及清華推出「Follow Your Emoji」, 一鍵讓照片變表情包
- 以假亂真,天工音樂大模型帶來顛覆式AI體驗大模型AI
- 隨著數字化深入,全景數字化網站才是未來網站
- 萬字綜述大模型高效推理:無問芯穹與清華、上交最新聯合研究全面解析大模型推理最佳化大模型
- 亞洲誠信聯合263企業郵箱 推出數字簽名解決方案
- js隨機切換背景音樂JS隨機
- 如何讓圖卷積網路變深?騰訊AI Lab聯合清華提出DropEdge卷積AI
- 音樂產業的未來在哪裡?數字才是救星產業
- 讓工作與(vue)音樂相伴Vue
- COMUUU讓音樂迴歸:人人都可玩轉音樂,更在音樂中找尋知音
- 音樂與數學
- BCG&天貓大快消聯合釋出數字化品類增長模型模型
- 戴上Wave智慧指環,一個手勢讓你隨心所欲控制音樂
- 華為與人教電音社簽署鴻蒙生態聯合創新合作協議,將推出支援鴻蒙智聯詞典筆鴻蒙協議
- 深度解析RAG大模型知識衝突,清華西湖大學港中文聯合釋出大模型
- 百度聯合AiNemo推出“小魚”家用機器人 春季上市AI機器人
- 火必與多米尼克聯合推出國家代幣 開啟Web3.0數字身份時代Web
- 小冰聯合視美泰共創ShiMeta數字人解決方案:大模型加持,讓每一個大屏終端都成為全新的互動載體大模型
- 騰訊音樂資料研究院:國風音樂內容生態報告(附下載)
- 位元組跳動清華AIR成立聯合研究中心 推動大模型產學研合作AI大模型
- 搜狗大資料總監、Polarr 聯合創始人關於深度學習的分享交流大資料深度學習
- Google推出自己的嘉年華 音樂和技術整合Go
- 福禍相依物聯網讓人歡喜讓人憂
- 英特爾與騰訊優圖聯合推出智慧AI裝置,讓智慧“無處不在”AI
- AI音樂,騰訊音樂、網易雲音樂的新版圖?AI
- 阿里研究院:後疫情時代的老年人數字生活(附下載)阿里
- TYVJ 1096 數字組合【0-1揹包模型】模型
- 阿里研究院:釋放數字紅利是打造“雙迴圈”的著力點(附下載)阿里
- PKI 數字證書隨筆
- 【多奇志】科技釋出會不但產品要酷炫,背景音樂也要讓人懷孕喲!
- eMarketer:85%的營銷人員在使用數字歸因模型模型
- 「硬核」實操如何擁有一個自己的數字人模型模型
- “網際網路+”的時代,易佳互聯也隨著時代步伐前進著
- 人大-鴻翼數字檔案聯合實驗室成立 服務檔案數字化轉型
- 全面對比:天工大模型 vs 紫東太初大模型大模型
- 微軟聯合創始人艾倫生平:熱愛音樂 與蓋茨爭執後離職微軟
- 美國西北大學聯合AI創企Eko,推出心臟雜音AI篩查演算法AI演算法