引言 人工智慧和物聯網的融合催生了全息通訊等智慧應用,推動通訊系統向語義通訊演進。語義通訊注重傳輸內容的「含義」,能實現更智慧的通訊服務。隨著元宇宙等應用發展,傳輸資料日益呈現多模態特徵。 傳統語義通訊系統僅能處理單一模態資料,而多模態語義通訊系統能夠處理文字、語音、影像、影片等多種模態資料,減少了高開銷和低效率的問題。 圖 1 :傳統的單模態語義通訊系統與多模態語義通訊系統。 如圖 1(a)所示,傳統的語義通訊系統通常只能處理單一型別的單模態資料。因此,傳輸多模態資料時,需要使用多個單模態語義通訊系統,可能導致顯著的高開銷和低效率。另一方面,圖 1(b)展示了一個多模態語義通訊系統,透過採用統一的多模態語義通訊模型,可以處理多種模態資料。 然而,多模態語義通訊系統的設計面臨以下挑戰: (1)資料異構:需要處理文字、影像、影片等多種格式的資料,且目標任務可能非常複雜,涉及機器翻譯、影像識別、影片分析等。提取語義特徵時,還需解決不同模態之間的語義對齊問題。 (2)語義歧義:在不同模態之間傳輸資料時,可能會產生語義錯誤或誤解,同時不同的知識背景可能導致語義理解不一致,進而引發歧義。 (3)訊號衰落:訊號在傳輸過程中可能會受到衰落和噪聲的影響,導致資訊丟失或語義變化,從而增加個性化語義重建的複雜性。 為解決上述挑戰,本文提出了一種基於 AI 大模型的多模態語義通訊框架,具體貢獻如下: (1)統一的語義表示:採用基於多模態語言模型的多模態對齊技術(MMA),使用可組合擴散模型(CoDi)處理多模態資料。MMA 透過構建共享的多模態空間,促進交叉模態的同步生成。透過將多模態資料統一到文字模態,提升語義一致性和資訊傳輸的效率。 (2)個性化語義理解:設計了基於個性化 LLM 的知識庫(LKB),利用 GPT-4 模型來理解個人資訊。透過個性化提示庫對 GPT-4 進行上下文學習,建立本地知識庫,提取更多相關的語義資訊,從而消除語義歧義。 (3)生成式通道估計:提出使用條件生成對抗網路進行通道估計(CGE),估算衰落通道的通道增益。該方法透過專用生成器網路和 leakyReLU 啟用函式,捕捉通道增益的非線性特性,從而實現高質量的通道增益預測。 多模態語義通訊的實現 LAM-MSC 框架整合了 AI 大模型作為解決方案。具體來說,該框架透過以下五個關鍵步驟實現多模態語義通訊。 圖 2 :所提出的 LAM-MSC 框架的示意圖。 基於 MMA 的模態轉換 對於輸入的多模態資料(影像、音訊和影片等),利用 MMA 將這些資料轉換為文字資料,並保持語義對齊。 例如,如圖 3 所示,原始的傳輸資料包括一張照片,上面是傳送者(假設是 Mike)和接收者(假設是 Jane)在花園裡玩耍的場景。然後,原始影像被轉換成文字描述:「A boy and a girl in a playful pose. The boy has golden hair and is wearing a brown suit with a red tie. The girl has black hair and is wearing a white dress with a black bow. The background is a garden」。圖 3 :所提出的 LAM-MSC 框架的資料流示例:傳送者 Mike 向接收者 Jane 傳送一張圖片,意圖傳達圖片的語義內容為 「Mike and Jane are playing in a garden」。 基於 LKB 的語義提取 對轉換後的文字資料,傳送者只傳輸包含其意圖的關鍵資訊,省略冗餘資訊。整合傳送者意圖和使用者資訊,提取個性化語義。 如圖 3 所示,透過整合傳送者的意圖、使用者資訊和興趣,LKB 提取了個性化語義 「Jane and me in a playful pose. The background is a garden」。這個描述代表了傳送者和接收者的身份,並表明傳送者的關注重點主要是照片中的「兩個人」和背景,而不是他們的裝扮。 基於 CGE 輔助的語義通訊資料傳輸 語義通訊以語義編碼器為起點,從原始資料中提取有意義的元素或屬性,旨在將該語義資訊儘可能準確地傳輸給接收者。然後,通道編碼器將語義編碼資料調製成適用於無線通訊的複數輸入符號。為了減輕衰落通道的影響,採用 CGE 來獲取 CSI,從而將乘法噪聲轉化為加性噪聲。 這種轉換降低了通道解碼器恢復傳輸訊號的複雜性。接下來,利用通道解碼器進行訊號解調,同時克服加性噪聲的影響。最後,語義解碼器執行語義解碼,從而獲取恢復的語義(例如,「Jane and I are playfully posing. The background is a garden.」)。儘管物理通道的干擾導致恢復語義與原始內容之間存在輕微差異,但總體含義保持了一致性。 基於 LKB 的語義恢復 接收者可能無法直接理解恢復的語義,因為接收到的訊息的個性化是針對傳送者而不是接收者的,這可能導致語義歧義問題。類似地,根據接收者的個性化提示詞和知識庫,採用 LKB 將解碼的語義轉換為接收者的個性化語義。 如圖 3 所示,LKB 根據接收者的使用者資訊(例如,身份)調整恢復的語義。因此,恢復的語義被轉化為接收者 Jane 的個性化語義,得到文字「Mike and I are playfully posing. The background is a garden」。 基於 MMA 的模態恢復 與模態轉換類似,MMA 用於實現模態恢復,即將文字資料轉換回原始的模態資料。然而,需要注意的是,本文僅評估恢復的和原始的模態資料在語義層面上的一致性,而非資料細節的完全重現(例如可以透過角色一致性等技術生成相同角色身份的圖片,但是無法保證圖片在畫素上的一致性)。 如圖 3 所示,恢復的影像僅顯示「Mike and Jane are playing in a garden」。這是因為傳送者的主要意圖在於人物和背景的語義方面,而不是關於人物裝扮的具體細節。模擬結果 圖 4 在不同訊雜比下的多模態語義通訊傳輸準確性。 圖 4 的消融實驗顯示,提高訊雜比能提升多模態語義通訊的準確性。對比 LAM-MSC 和無 LKB 的 LAM-MSC 可以看出,個性化知識庫在提升語義傳輸準確性上起到了積極作用。 此外,去除 CGE 的 LAM-MSC 表現最差,表明在所提出的語義通訊系統中引入 CGE 的重要性。 圖 5 不同方法的對比結果。 圖 5 的對比實驗比較了 LAM-MSC 框架與專門用於影像傳輸的 DeepJSCC-V 方法和音訊傳輸的 Fairseq 方法。 儘管這些方法在準確性上略勝一籌,但 LAM-MSC 在壓縮率上表現更好,因為它能將影像和音訊轉為文字,減少傳輸資料量。此外,LAM-MSC 能處理多模態資料,而 DeepJSCC-V 和 Fairseq 只能處理單模態資料。 更多詳情,請參閱論文原文。