導讀:隨著人工智慧技術的進一步提升,人機對話相關技術也日益成熟,並在各大領域得到廣泛的運用,多模態相關的人機對話隨著元宇宙的興起得到了快速的發展。今天和大家分享基於多模態大模型的人機對話。
今天的介紹會圍繞下面三點展開:
分享嘉賓|王金橋 研究員 博導
編輯整理|吳哲 58同城
出品社群|DataFun
01
虛擬數字人背景介紹
數字人在 IP 影響力和粉絲經濟方向逐漸擴大影響,例如虛實結合的虛擬演員、虛擬主持人、虛擬主播、虛擬客服、虛擬導遊和專家講解等。隨著人工智慧、虛擬人以及人機對話技術的發展,數字人應用市場飛速發展,智慧化水平不斷提高,擬人化以及沉浸式的體驗也越來越好。數字人作為元宇宙的基礎設施,已經成為我們的數字分身,扮演著情感陪護和超級助手的角色。目前數字人的發展也存在很多問題,其中最重要的就是高成本的建模,例如數十萬至百萬的製作成本,大部分企業無法承擔,另外生產週期長達數月,導致整個生產流程無法連續穩定輸出。第二個問題是數字人的驅動,目前數字人的驅動能力,主要分為兩種:一種是靜態超現實數字人偶像,使用2d數字人偶像完成圖文媒體宣傳等工作;另外一種是三維數字人,目前普遍存在形象不逼真、動作比較生硬,整體體驗不夠好。其中最關鍵的地方在於數字人的對話能力上,我們可以採用單相機動作捕捉、彈幕、結構光或者多相機動捕的方式,將人的動作對映到數字人本身,但最重要的數字人對話和理解能力依舊沒能很好地解決,當前的AI智慧大部分屬於閒聊對話模式,很多回答都是答非所問,這也是人工智慧目前普遍面臨的理解能力的難題。第三個問題是虛擬人場景受限,大部分虛擬人制作比較粗糙,只能用於簡單的客服場景,商業價值不高;同時動漫形象應用領域也比較受限,無法比擬真人的效果。02
數字人發展與相關方法
目前數字人建模與驅動主流方法是結合 NeRF+GAN 的生成和渲染技術。主要是採用視覺化編碼自動實現 encoder,經過生成技術以及 NeRF 渲染能力,可以快速低成本生成數字人,從而實現數字人自動化。數字人技術從傳統的 CG 模式到 AIGC 數字自動化階段,在價值格局和運營上都有著巨大的提升。目前 AIGC 數字人建模時間週期可降至三週,成本可降至 1 萬到 10 萬以內,而且真人效果可以由多人效果生成單個寫實類、超真實感、卡通類等多種風格,根據底庫靈活配置,實現批次化 IP 生產。數字人應用範圍越來越廣泛,其價值格局需要進一步重構。從運營角度講,AIGC 可以更加自由地設計,任何人都可透過多種風格實現自由設計與製造,而且是永久專屬,可以實現多個替身,整體的豐富度與傳統主播相比更有表現力。在生產力方面,可透過多個分身、多種真人的特效,適用於不同的場景不同的應用,可展示出智慧沉浸式的體驗。整體運營成本也變得更加可控。AIGC 首先是採用 CG 創造等建模技術實現數字人編輯與創造,其次採用數字人驅動。數字人驅動分為中職人驅動與無中職人驅動兩種模式,捕獲動作表情和姿態,採用文字或者是語音的方式進行驅動。多模態已成為數字人技術的核心支撐力量,多模態協同是其中重要的一部分。傳統的 CG 模式是透過掃描建模,然後進行紋理渲染,整體的製作週期較長,源之於傳統的圖形學技術。而自動化生成需要計算機視覺、圖形學以及重建技術。AIGC 創造是透過隨機種子與生成對抗網路結合,自動生成影像。主要是利用相關描述內容,自動生成海量沒有版權的虛擬人臉,這種方式非常高效,但存在可解釋性不強、與輸入資料強相關等問題,例如訓練資料如果均是外國人,那麼生成的人臉中外國人的特徵將會非常明顯。
透過海量的多模態資料資訊,可實現不同風格的遷移。輸入一張照片,經過神經網路編碼以及額外的屬性資訊輔助,生成初步的結果,利用風格化的擴散性模型,得到最終塑造影像。比如塑造後的迪士尼風格影像,可以根據選項自動進行創造,另外也可以透過控制卡通化風格的強弱以及手動調整,從而生成超真實的影像。透過海量資料自動生成真實以及各種真實的變通,可以使數字人的建立和創造變得非常簡單,也使得成本有效降低。目前二維效果較好,三維技術還需要一些人工輔助來完成。數字人驅動分為中職人驅動和無中職人的驅動。中職人驅動主要是採用生成技術等實現人臉替換。無中職人驅動則是根據輸入影像,實現照片中的人物自動化場景。不同的應用場景與選擇,可以得到不同的效果。最基礎的如face good,其整體的面部系統成本較高,使用起來相對比較麻煩。如圖所示的中職人驅動則是透過以神經網路作為特徵提取的雙流框架,實現對人物動態屬性與身份屬性的提取,透過反編碼的方式生成新的人臉,利用嘴唇表情等驅動虛擬人自動進行廣播等操作。無中職人驅動也稱 Talking-head,透過三維重建系統,估計影像中人物姿態和身份,另外透過選擇說話人的風格,結合輸入文字採用 Transformer 模型驅動嘴型,並採用神經網路實現渲染,最終輸出一個基於文字和語音驅動的虛擬人。例如全姿態三維人臉替換,主要是透過多個引數控制姿態、表情、形狀,結合身份和表情實現深度特徵紋理對映,以此來保持原始人複雜的動作和表情的連續性,實現單輸入影像大角度人臉的渲染和重建。如下圖可以看到,使用語音來驅動整個畫面,透過擷取遼寧衛視的圖片,經過輸入語音或者文字,使其自動驅動,實現人物的自動播報。另外也可以採用影片驅動,如圖透過輸入影片,將一個人的動作對映到另一個人身上,基於模板可以擴充套件至多種形象。數字人除了驅動之外,另一個重要的部分是人機對話,現在也逐漸由單模態邁向多模態,主要是能夠利用海量對話資料進行自監督學習,提升下游任務的效能。目前很多研究致力於如何在人機對話過程中,將多模態的資料如影像、文字、語音、影片等資料進行跨模態的統一表徵,從而更接近於人類的理解方式。聽覺+語言融合的方式,可以實現多模態資料在語言維度的統一,從而更好地輔助機器像人一樣去進行學習與對話。多模態的預訓練大模型是我們自動化所的一個重要方向。我們基於國產化算力,透過海量資料,經過 3~4 個月訓練得到了一個超級規模的大模型——“紫東太初”多模態大模型,引數量 1,000 億左右,透過大模型實現影像、文字、語音的統一表徵和生成,實現虛擬場景中人物形象的生成,以及整個對話中的問答檢索、生成,透過語義理解自動實現配圖,完全打破了對話過程中只用語言進行交流的模式,形成了基於多模態更擬人化的表達方式。
應用案例
採用訓練的大模型,我們可以實現在對話的過程中進行檢索。比如帶著粉色領結的貓,會自動對句子中的關鍵詞與影像資訊進行關聯,實現詞條級別和影像區域級別的有效對應。另外還可以實現以圖搜圖、以圖搜文,或是依據輸入的影像生成各種描述。在對話過程中可以依據對話內容分別生成對應的寫實類的影像,實現了精準的表徵,打破了多模態之間的壁壘。除此之外,我們的模型還可以生成有想象力的影像,比如一隻泰迪熊在遊自由泳,其實我們都知道泰迪熊是不會遊自游泳的,但從結果可以看到一個泰迪熊,它有了像人一樣遊自游泳的泳姿,這就是 AI 的一些創造力和想象力。另外還有影像區域性編輯和輪廓補全等,滿足我們在各種場景下人機互動的多樣性。基於多模態對話的小初是我們的展示應用,它具有類人的理解對話、創作和生成能力。我們還整合了非常多的典型應用,比如服務於長安汽車車載終端,可以輸入一張照片,自動生成超真實、超寫實和卡通類的一些形象。可以看到如圖生成的樣例,每個人只要拍張照片,上傳至智慧座艙,智慧座艙就會自動生成形象,透過口令即可驅動虛擬人執行具體的動作,如開啟空調等。這是我們與杭州市旅遊局合作的專案——杭小億,主要是結合多模態的對話數字人與南宋御街知識圖譜相結合,實現精準導遊介紹。我們還與千博一起合作了全球首個多模態手語虛擬人,基於國產化硬體,透過影像、文字、語音、表情驅動,和手語融合到一起,實現了手語虛擬人。問答環節
A1:可以的。手語具有相應的詞庫,一般情況下,就是每一個詞對應一個標準的詞庫,每個詞庫動作怎麼比劃是提前建模好的,針對手語有自動切條方式,並不能對所有的手語進行表示,需要把每句話拆成詞,每個詞都用手語,手語再用動作串聯起來,可以實現實時。Q2:手語教考一體機,主要的功能有哪些,是一個什麼樣的硬體裝置?A2:手語教考一體機相當於存放在教室裡的一臺一體化的裝置,當我打手語的時候,裝置上會自動生成一個圖片,配一個圖片或配一個影片,比如我打一個“瀑布”,它就會自動配一個瀑布的照片,這個照片是生成的,所以在教學的過程中可以更好地理解老師打的手語是什麼。簡單來說,手語教考一體機主要功能就是把手語轉化成文字、語音,同時配上圖片;它還能給聾啞學校開展測試,以此來評估手語正確與否。。Q3:小初的 IP 設計中,您這邊出於哪些考慮,然後設計了這樣的一個非常可愛的 IP 呢?A3:我們的小初定位是一個穿古代漢服的十幾歲少女,象徵著我們整個的人工智慧,穿漢服代表是我們中國做出來的。第二個就是說小初的名字,我們的大模型叫“紫東太初”,“紫東”是我們自動化所的諧音,“太初”就代表著整個的人工智慧,從單任務轉為多工,相當於步入大引數大模型大算力的一個時代,是多模態的一個時代。目前的虛擬人更像人一樣,但是它的智力又不是特別高,所以就選了十幾歲的一個少女形象。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024420/viewspace-2928562/,如需轉載,請註明出處,否則將追究法律責任。