跨模態通訊總丟失語義、產生歧義?加入AI大模型,LAM-MSC實現四模態統一高效傳輸

机器之心發表於2024-12-19
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的作者為湖南師範大學的江沸菠副教授,彭于波博士,湖南工商大學的董莉副教授,英國布魯內爾倫敦大學的王可之教授,南京大學的楊鯤教授(歐洲科學院院士),東南大學的潘存華教授、尤肖虎教授(中國科學院院士)。

多模態訊號,包括文字、音訊、影像和影片等,可以被整合到語義通訊中,在語義層面提供低延遲、高質量的沉浸式體驗。然而,多模態語義通訊面臨著資料異構、語義歧義和訊號衰落等挑戰。AI 大模型,尤其是多模態語言模型和大語言模型的發展,為解決這些問題提供了新思路。

基於此,由湖南師範大學、南京大學和東南大學等機構組成的研究團隊提出了基於AI大模型的多模態語義通訊(LAM-MSC)框架。
圖片
  • 論文題目:Large AI Model Empowered Multimodal Semantic Communications
  • 作者:江沸菠,董莉,彭于波,王可之,楊鯤,潘存華,尤肖虎
  • 來源:IEEE Communications Magazine
  • 論文連結:https://ieeexplore.ieee.org/abstract/document/10670195/

引言

人工智慧和物聯網的融合催生了全息通訊等智慧應用,推動通訊系統向語義通訊演進。語義通訊注重傳輸內容的「含義」,能實現更智慧的通訊服務。隨著元宇宙等應用發展,傳輸資料日益呈現多模態特徵。

傳統語義通訊系統僅能處理單一模態資料,而多模態語義通訊系統能夠處理文字、語音、影像、影片等多種模態資料,減少了高開銷和低效率的問題。
圖片
圖 1 :傳統的單模態語義通訊系統與多模態語義通訊系統。

如圖 1(a)所示,傳統的語義通訊系統通常只能處理單一型別的單模態資料。因此,傳輸多模態資料時,需要使用多個單模態語義通訊系統,可能導致顯著的高開銷和低效率。另一方面,圖 1(b)展示了一個多模態語義通訊系統,透過採用統一的多模態語義通訊模型,可以處理多種模態資料。

然而,多模態語義通訊系統的設計面臨以下挑戰:

(1)資料異構:需要處理文字、影像、影片等多種格式的資料,且目標任務可能非常複雜,涉及機器翻譯、影像識別、影片分析等。提取語義特徵時,還需解決不同模態之間的語義對齊問題。

(2)語義歧義:在不同模態之間傳輸資料時,可能會產生語義錯誤或誤解,同時不同的知識背景可能導致語義理解不一致,進而引發歧義。

(3)訊號衰落:訊號在傳輸過程中可能會受到衰落和噪聲的影響,導致資訊丟失或語義變化,從而增加個性化語義重建的複雜性。

為解決上述挑戰,本文提出了一種基於 AI 大模型的多模態語義通訊框架,具體貢獻如下:

(1)統一的語義表示:採用基於多模態語言模型的多模態對齊技術(MMA),使用可組合擴散模型(CoDi)處理多模態資料。MMA 透過構建共享的多模態空間,促進交叉模態的同步生成。透過將多模態資料統一到文字模態,提升語義一致性和資訊傳輸的效率。

(2)個性化語義理解:設計了基於個性化 LLM 的知識庫(LKB),利用 GPT-4 模型來理解個人資訊。透過個性化提示庫對 GPT-4 進行上下文學習,建立本地知識庫,提取更多相關的語義資訊,從而消除語義歧義。

(3)生成式通道估計:提出使用條件生成對抗網路進行通道估計(CGE),估算衰落通道的通道增益。該方法透過專用生成器網路和 leakyReLU 啟用函式,捕捉通道增益的非線性特性,從而實現高質量的通道增益預測。

多模態語義通訊的實現

LAM-MSC 框架整合了 AI 大模型作為解決方案。具體來說,該框架透過以下五個關鍵步驟實現多模態語義通訊。
圖片
圖 2 :所提出的 LAM-MSC 框架的示意圖。

基於 MMA 的模態轉換

對於輸入的多模態資料(影像、音訊和影片等),利用 MMA 將這些資料轉換為文字資料,並保持語義對齊。

例如,如圖 3 所示,原始的傳輸資料包括一張照片,上面是傳送者(假設是 Mike)和接收者(假設是 Jane)在花園裡玩耍的場景。然後,原始影像被轉換成文字描述:「A boy and a girl in a playful pose. The boy has golden hair and is wearing a brown suit with a red tie. The girl has black hair and is wearing a white dress with a black bow. The background is a garden」。
圖片
圖 3 :所提出的 LAM-MSC 框架的資料流示例:傳送者 Mike 向接收者 Jane 傳送一張圖片,意圖傳達圖片的語義內容為 「Mike and Jane are playing in a garden」。

基於 LKB 的語義提取

對轉換後的文字資料,傳送者只傳輸包含其意圖的關鍵資訊,省略冗餘資訊。整合傳送者意圖和使用者資訊,提取個性化語義。

如圖 3 所示,透過整合傳送者的意圖、使用者資訊和興趣,LKB 提取了個性化語義 「Jane and me in a playful pose. The background is a garden」。這個描述代表了傳送者和接收者的身份,並表明傳送者的關注重點主要是照片中的「兩個人」和背景,而不是他們的裝扮。

基於 CGE 輔助的語義通訊資料傳輸

語義通訊以語義編碼器為起點,從原始資料中提取有意義的元素或屬性,旨在將該語義資訊儘可能準確地傳輸給接收者。然後,通道編碼器將語義編碼資料調製成適用於無線通訊的複數輸入符號。為了減輕衰落通道的影響,採用 CGE 來獲取 CSI,從而將乘法噪聲轉化為加性噪聲。

這種轉換降低了通道解碼器恢復傳輸訊號的複雜性。接下來,利用通道解碼器進行訊號解調,同時克服加性噪聲的影響。最後,語義解碼器執行語義解碼,從而獲取恢復的語義(例如,「Jane and I are playfully posing. The background is a garden.」)。儘管物理通道的干擾導致恢復語義與原始內容之間存在輕微差異,但總體含義保持了一致性。

基於 LKB 的語義恢復

接收者可能無法直接理解恢復的語義,因為接收到的訊息的個性化是針對傳送者而不是接收者的,這可能導致語義歧義問題。類似地,根據接收者的個性化提示詞和知識庫,採用 LKB 將解碼的語義轉換為接收者的個性化語義。

如圖 3 所示,LKB 根據接收者的使用者資訊(例如,身份)調整恢復的語義。因此,恢復的語義被轉化為接收者 Jane 的個性化語義,得到文字「Mike and I are playfully posing. The background is a garden」。

基於 MMA 的模態恢復

與模態轉換類似,MMA 用於實現模態恢復,即將文字資料轉換回原始的模態資料。然而,需要注意的是,本文僅評估恢復的和原始的模態資料在語義層面上的一致性,而非資料細節的完全重現(例如可以透過角色一致性等技術生成相同角色身份的圖片,但是無法保證圖片在畫素上的一致性)。

如圖 3 所示,恢復的影像僅顯示「Mike and Jane are playing in a garden」。這是因為傳送者的主要意圖在於人物和背景的語義方面,而不是關於人物裝扮的具體細節。
模擬結果
圖片
圖 4 在不同訊雜比下的多模態語義通訊傳輸準確性。

圖 4 的消融實驗顯示,提高訊雜比能提升多模態語義通訊的準確性。對比 LAM-MSC 和無 LKB 的 LAM-MSC 可以看出,個性化知識庫在提升語義傳輸準確性上起到了積極作用。

此外,去除 CGE 的 LAM-MSC 表現最差,表明在所提出的語義通訊系統中引入 CGE 的重要性。
圖片
圖 5 不同方法的對比結果。

圖 5 的對比實驗比較了 LAM-MSC 框架與專門用於影像傳輸的 DeepJSCC-V 方法和音訊傳輸的 Fairseq 方法。

儘管這些方法在準確性上略勝一籌,但 LAM-MSC 在壓縮率上表現更好,因為它能將影像和音訊轉為文字,減少傳輸資料量。此外,LAM-MSC 能處理多模態資料,而 DeepJSCC-V 和 Fairseq 只能處理單模態資料。

更多詳情,請參閱論文原文。

相關文章