搜狗聯合清華天工研究院推出ChoreoNet模型:讓數字人隨著音樂翩翩起舞

naojiti發表於2020-08-21

聲音與AI行為搭配在一起,會發生怎樣的化學反應呢?這一話題,正在成為國內外AI研究比較熱衷的新方向。

比如卡內基·梅隆大學和CMU機器人研究所,就在研究聲音和機器人動作之間的相互作用;國內則從數字人入手,搜狗分身技術團隊聯合清華大學天工智慧計算研究院賈珈老師團隊,率先展開了音訊驅動身體動作的研究。

近日二者共同發表的數字人技術論文《ChoreoNet: 基於舞蹈動作單元的音樂-舞蹈合成框架》,就被2020國際頂級盛會ACM Multimedia錄用為長文。

作為計算機領域諾貝爾獎——圖靈獎的評選機構,ACM(國際計算機學會Association for Computing Machinery)的業界地位不用贅述,旗下的ACM Multimedia也被認為是多媒體技術領域奧運級別的頂級盛會,論文接受率很低。

那麼,能得到頂會的認可,這一新技術究竟有哪些開創性呢?

聞聲起舞,“樂舞合成”是怎樣實現的?

讓數字人根據文字語義做出相對應的面部表情及肢體動作,目前已經有不少成熟的應用,比如AI合成主播。如果再能夠跟隨音訊做出同步、自然的肢體反應,無疑會在多種場景中產生奇妙的化學反應。

不過,隨聲而動這件事的難度在於,背後需要解決的技術問題不少,比如:

傳統音樂與舞蹈合成的方式是基線法,透過人體骨骼關鍵點的對映,但許多關鍵點難以捕捉和預測,就會出現高度冗餘和噪聲,導致合成結果的不穩定、動作節銜接不像真人。

後來,雅爾塔等學者也提出要透過AI的弱監督學習來解決上述問題,但由於缺乏對人類舞蹈經驗知識的瞭解,依然會出現合成不夠自然、情感表達不夠流暢的問題。

另外,由於音樂片段比較長,背後伴隨著成千上萬的動作畫面,需要智慧體記住並對映這種超長的序列也是一大挑戰。

搜狗及清華天工院研究團隊所做的突破,就是將人類專業知識融入演算法,提出了一個模仿人類舞蹈編排的程式ChoreoNet,來根據音樂生成動態優美連貫、非線性高度擬真的舞蹈。

簡單來說,ChoreoNet是將專業舞者的各個動作單元與音樂旋律捕捉並資料化,然後讓AI在其中尋找規律,知道在怎樣的音樂節拍、旋律風格中應該做出怎樣的舞蹈動作,進而形成連貫的動作軌跡。

其中,研究人員共突破了兩個環節:

1.舞蹈知識化。用動作捕捉採集專業的人類舞者是如何根據音樂的節奏、旋律來編排動作的。研究人員收集了4種不同型別(恰恰、華爾茲、倫巴和探戈)的舞蹈資料,數個音樂節拍裁剪出一個編舞動作單元(CAUs) 相對應的片段,形成一個動作控制單元(CA),形成一個音樂與動作的對映序列。

2.之前採集的舞蹈動作只是人體骨骼關鍵點資料,怎樣讓它們之間的連續過渡更加自然呢?研究人員藉助NLP語義理解,讓AI可以根據積累的知識進行實時反應。利用GAN設計了一個運動生成模型,讓AI可以繪製一些舞蹈動作,補上缺失的資料,從而實現舞蹈的平滑過渡,產生自然的效果。

實驗結果證明,與基線法相比,ChoreoNet效能更好,可以生成持續時間較長的結構化控制元件,來生成與音樂匹配的動作,並使其自然連線、情感流暢。

在這一突破中,搜狗對音訊驅動身體動作這一課題的敏銳感知,以及AI分身技術在身體動作及姿態生成方面的加成,無疑是領先技術能力與創新意識的絕佳組合。

持續領跑,搜狗與分身技術的不解之緣

可以看到,ChoreoNet的出現,既帶來了人機互動能力的提升,也給機器學習融入了知識元素。這可以看做是搜狗“分身技術”的一次進階,也側面印證了搜狗以“自然互動+知識計算”為核心的AI技術版圖,正在持續狂奔,也得以積蓄起不斷引領技術方向的勢能。

從2018年首創分身技術之後,搜狗的研發腳步從未停止,持續專注於如何以文字及音訊更好驅動數字人的面部表情及唇動進行研究。相繼在2D/3D數字人領域構建了音畫同步、逼真的面部表情唇動生成及驅動能力。

如何能夠讓數字人更加自然並且富有表現力也是搜狗分身的重點研究方向,其中身體動作以及姿態的表達至關重要。在對數字人的面部驅動達到較高標準後,搜狗將研究重點從面部為主的驅動轉到面部+動作的驅動,重點攻關如何讓肢體動作更具自然表現力。如在今年5月推出的3D AI合成主播身上,不僅有經得起高畫質鏡頭考驗的面部表現,同時實現了以文字語義為驅動的自如行走。

如今,ChoreoNet更進一步,實現了以音訊對AI數字人進行實時驅動。搜狗在業內率先嚐試並取得突破性研發結果的這一舉動,更是一改只能由文字、語義驅動AI分身面部+動作的現狀,為行業帶來了更多的創新可能,搜狗的分身技術理想與實力也躍然紙上。

不斷打造視覺化、能自然互動的AI數字人,搜狗到底想做什麼?

人機互動的未來,與搜狗的技術遠景

迴歸到企業戰略層面,搜狗的AI理念是讓AI賦能於人。透過人機協作,把人從重複性工作中解放出來,更好地解放社會生產力。比如AI主播,就可以讓主持人不再困於朗讀既定內容,可以投身於更具創造性的工作。當然,這一切都要從更自然的人機互動開始,完成一次次交流與觸碰。

而此次ChoreoNet讓數字人跟隨音樂起舞,這個創意的突破不僅僅是技術上夠炫酷,應用空間也非常巨大。

不出意外,搜狗很大可能會將該技術同3D數字人相結合,因為相較2D數字人,3D數字人的肢體靈活性、可塑性驅動更強,從而有更廣泛的應用空間。音訊驅動技術的加入,不僅能豐富搜狗3D數字人在新聞播報、外景採訪的場景,更直接有助於突破融媒體領域、向娛樂、影視等領域落地進軍。可以看到,基於視覺的人機互動會越來越成為主流,比如當前流行的智慧客服、虛擬偶像等等,往往需要大量文字、語義的輸入來進行推理與互動,虛擬偶像的動作也需要捕捉後由人工逐幀進行製作,而改為音訊驅動可以更為直接地實現語音交流,節省製作/計算的步驟與成本。

此外,人類知識體系與機器學習的結合,讓AI能力有極大的提升。透過垂直領域的知識資料進行訓練和學習,從而提供更精準、可靠的服務,大大提升AI客服的接受度。

當然,音訊驅動也可以生成更具人性化的個人秘書,幫助人減輕工作負擔、提高效率的同時,透過音訊識別與判斷來實時反應,表現力更加豐富,讓智慧家居、服務機器人等更好地融入生活環境,在老人關懷、私人助理、兒童陪伴等等場景之中,扮演更積極的角色。

業內有個共識,一般情況下只有對日常生活和技術突破具有巨大影響潛力的研究專案,才會被ACM Multimedia透過和錄取。從這個角度看,搜狗與清華天工院所做的工作,遠遠不只是學術上的突破那麼簡單。當全球科技巨頭都在探索如何用多模態互動締造新玩法、新功能的時候,搜狗已經向前邁出了讓人眼前一亮的步伐。

讓數字人更像人,就能更早地與人類達成親密無間的配合與協作,對於人類和AI來說,同樣重要。也正由於此,世界頂級盛會才會投注認可與鼓勵。下一次,搜狗會為數字人集齊怎樣的能力呢?我們拭目以待。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2713797/,如需轉載,請註明出處,否則將追究法律責任。

相關文章