摘要:現在,越來越多的企業和個人使用AIGC生成文章、圖片、音樂甚至影片等內容,AIGC已經成為一種必備的工具。在遊戲和原畫師行業,甚至已經出現了第一批因為AI而失業的人。
本文分享自華為雲社群《GPT-4釋出,AIGC時代的多模態還能走多遠?系列之二:AIGC的阿克琉斯之踵》,作者:ModelArts 開發 。
AIGC是繼PGC(Professional Generated Content,專業生產內容)和UGC(User Generated Content,使用者生產內容)之後的一個新時代,它帶來了一種新的內容生產方式,並且還為內容注入了只有人類才具備的“創作”元素,開創了“模型”主導內容的時代。儘管AIGC技術已經有了相當大的提升,但仍然存在很多不足之處。
01 ChatGPT(包括GPT4)的諸多問題難以忽視
儘管ChatGPT(包括GPT4)是一個非常有用的工具,但它仍然存在許多問題。以下是一些經常出現的問題:
1) 強語言,弱知識,“一本正經地胡說八道”:在回答問題時,ChatGPT很容易“胡說八道”,因為它的回答通常是基於大量的文字資料而生成的,而不是真正的知識。比如下面的問題:
Q:紅樓夢中賈寶玉為什麼要葬花?
A:據小說描寫,賈寶玉葬花的原因是因為他感到世間美好事物的短暫和凋零…
Q:魯迅和周樹人是同一個人嗎?
A:不是同一個人,魯迅和周樹人是兩個不同的人。魯 迅…而周樹人(1895年1月25日-1968年11月6日)也是中 國著名的現代作家和翻譯家,代表作品有《春蠶》、《子夜》等
2) 邏輯推理不靠譜:不論是數學邏輯還是專業邏輯,比如下面的問題:
Q:3個人3天用3桶水,9個人9天用幾桶水?
A:根據題目可知,3個人在三天內用了3桶水,
可以推算出每天每人用水量為:
3 桶 / 3 人 / 3 天 = 1 桶 / 人 / 天
因此,在9個人使用9天內需要的總用水量為:
1 桶 / 人 / 天 × 9 人 × 9 天 = 81 桶
所以,9個人在九天內需要用 81 桶的水。(正確答案27桶)
3) 實時資訊自更新慢,新舊知識難以區分,比如下面的問題:
Q:gpt4是什麼時候釋出的?
A:抱歉,目前還沒有關於GPT-4的官方釋出計劃和訊息
4) 無法真正為領域類問題提供專業、靠譜的答案,比如下面的問題:
Q:華為手機沒電了,請問能否使用蘋果手機的充電器充電?
A:可以的,蘋果手機和華為手機使用的充電器介面都是標準的USB介面,因此蘋果手機的充電器也可以用來給華為手機充電。不過,請注意使用符合標準的充電器。
02 多模態大模型的跨模態生成能力尚不完善
雖然AIGC跨模態生成技術的視覺效果令人驚歎,但在實際應用過程中存在一些資訊不對稱的問題。目前,多模態大模型在跨模態生成方面仍然存在一些不完善之處,需要進一步研究和最佳化。從文字到影像的生成方向,Stable Diffusion的研究發現提示詞與輸出之間存在著顯著的組合泛化問題。例如,在輸入“紅草綠花”的情況下,輸出結果可能會是相反,這表明AI模型對於語義的理解存在錯誤。同樣,當輸入“一匹馬騎著宇航員的照片”時,輸出結果可能會是宇航員騎著馬的照片,這也暴露出模型在語義理解方面的不足之處。為了解決這些問題,需要進一步研究和最佳化多模態大模型,研究方向包括改進模型的組合泛化能力、提高模型對於語義的理解、以及最佳化跨模態生成結果的準確性等,以使得多模態大模型在實際應用中更加可靠和有效。
(以上文圖生成來自Stable Diffusion)
03 多模態大模型尚未完全理解多模態資料
GPT4大模型釋出,加速了AIGC多模態的發展,當然多模態大模型的發展在近年來取得了令人矚目的進展,但是作為一項前沿技術,仍存在著一系列問題需要解決。其中一個重要問題就是對於多模態資料的理解還不夠充分。多模態資料是指來自不同感官或媒介的資料,如影像、音訊、文字等。雖然多模態大模型可以同時處理多種型別的資料,但是對於跨模態資料的融合、對齊等方面,仍需要進一步探索和最佳化。
首先,對於多模態資料中的事實知識的理解不足。在實際應用中,很多跨模態生成任務都需要豐富的知識庫和背景知識支撐。例如,文字描述和影像生成任務需要對具體事物的特徵進行深入瞭解,而涉及到自然語言的任務,則需要對語言語義的理解更加準確。因此,建立更為完整準確的知識庫是非常重要的。
其次,常識儲備不足也是多模態大模型的瓶頸之一。常識是解決現實問題的基礎,而在跨模態生成任務中,常識更是不可或缺。例如,在利用AIGC中AI作畫的Stable Diffusion 作圖的一個影像描述中,描繪出“小狗在路邊玩耍”的情境更加符合日常生活的常識,而非描述為“四條腿的動物在道路上移動”,這說明常識缺失直接影響模型的表現效果。
最後,邏輯推理能力也是多模態大模型需要改進的地方。在實際場景中,有很多跨模態生成任務,需要透過邏輯推理進行相關內容的理解和生成。例如,基於文字的影像生成任務需要根據文字中的描述進行相應的推理,以便生成一張完整的影像。而當前多模態大模型的邏輯推理能力仍有待提高,未來的研究應該注重邏輯推理技術的研究和最佳化,以提高模型的綜合表現能力。
總之,多模態大模型的未來研究應該致力於處理多模態資料的全面理解,選取合適的知識庫和常識庫,探索邏輯推理技術等方向,以提高多模態大模型在跨模態生成領域的表現效果。
(以上圖來自視覺問答VQA)
04 多模態大模型PaLM-E離實用級還有多遠?
多模態大模型PaLM-E的出現,標誌著計算語言學作為人工智慧領域的重要分支進入了一個新的繁榮期。PaLM-E依賴於如此龐大的引數,初步實現了對機器人的操控,但其在實用性方面還有待提高。其中,空間範圍、物品種類和任務規劃複雜度等方面的限制是最為突出的。目前展示出來的演示,其空間範圍封閉有限,物品種類數量有限,規劃任務比較簡單,操作任務也相對簡單。這些限制的存在,讓人們對PaLM-E在真實複雜場景中的實用價值產生了質疑。
此外,PaLM-E在使用過程中還存在一些技術問題,例如需要耗費大量的時間來除錯和訓練,同時還需強大的計算資源才能支援其正常執行。這些問題在實際應用中都會給使用者帶來極大的不便和成本壓力。因此,需要從技術上不斷最佳化和改進PaLM-E,使它能夠更好地適應複雜的應用場景,並且讓成本更低、易用性更高。當然,儘管PaLM-E離實用級還有一定距離,但是可以相信,隨著技術的不斷髮展和突破,PaLM-E將結合各種場景打破技術限制,真正走進人們的生活和工作中,發揮其巨大的實用價值。
(以上圖來自網路)
05 小結:多模態大模型的本質、前提與不足剖析
相比於傳統的統計模型,多模態大模型有很多優勢。它能夠利用多種不同的資訊源來進行學習和推理,從而更加全面地捕捉人類的知識、常識和邏輯推理能力;它也能夠以較低成本實現自然語言處理、計算機視覺和語音識別等多項任務,提高了模型的效率和普適性;最後,多模態大模型還能夠為人類提供更加直觀、易懂的互動體驗,讓人們更加方便地獲取資訊和進行決策。
然而,多模態大模型也存在一些不足之處。首先,由於不同模態資料之間的差異性,多模態大模型的建立和最佳化過程需要消耗大量的計算資源和時間。其次,該模型尚存在著一些挑戰和難點,例如如何對不同模態資料之間的關聯進行建模以及如何解決資料對齊和逆向推導等問題。此外,多模態大模型還需要克服資料質量、隱私保護和資料倫理等方面的挑戰,才能更好地應用於實際場景中。
因此,想要在AIGC領域發揮多模態大模型的優勢,需要在技術研究、資料質量管理、隱私保護和資料倫理等方面繼續深入研究和探索。只有在不斷完善和最佳化多模態大模型的同時,才能更好地應對現實世界中的複雜情境和問題,提高人類社會的智慧化水平。