多模態學習,帶來AI全新應用場景?

naojiti發表於2020-07-07

新的AI技術發展趨勢有哪些?多模態學習技術一定是其中之一。

最近,剛剛宣佈“自立門戶”的微軟AI明星產品小冰改名為“紅棉小冰”。殊不知2014年誕生的這一個AI對話機器人已經在5年時間裡更新到了第七代了,據稱能力上正在“無限接近人類”。現在的小冰,不僅是那個會作詩的機器人了,她還會唱歌作曲、閱讀朗誦、撰寫新聞,甚至去年還辦了一個虛擬7位畫家的個人畫展。多模態識別技術正是小冰越來越像人一樣溝通表達的關鍵之一。

多模態技術同樣也在視訊網站、電商物流、自動駕駛等領域得到廣泛。像愛奇藝推出的“只看TA”功能,優酷視訊正在使用的視訊幀、人臉幀的圖向量檢索,都離不開多模態識別技術的支援。而像京東淘寶等電商平臺的“拍照購”、“拍立淘”的搜尋技術背後也都是在計算機視覺技術下,使用了影像、文字和高層語義屬性等多模態下的資訊融合,才實現高精度的“以圖搜圖”功能。百度提出的“多模態深度語義理解”,則讓AI實現從“看清聽清”到“看懂聽懂”的進化。

可以說,人工智慧在通向人的智慧的道路上,多模態學習就是一個繞不開的發展方向。因為人類本身就是一個多模態學習的典範。

現在,多模態學習技術正在帶來眾多全新的應用場景。關注AI技術和應用發展趨勢的你,想必也想了解下多模態學習的來龍去脈,以及在這些新應用場景中的技術現狀與問題。而這些問題也是本文重點探討的內容。

“多模態學習”,正式認識下

模態(Modality),雖然不是我們的日常用語,但卻十分容易理解。

我們每一天都會接觸到各種不同來源和形式的資訊。正如我們有視覺、聽覺、嗅覺和觸覺等,那麼我們接觸的資訊就有視訊、影像、文字、語音、味道、軟硬度等,這每一種資訊的形式就可以稱作一種模態。

模態的範圍要比我們的感知能力更寬泛。除了視覺、聽覺獲得的模態資訊,我們也可以利用感測器獲得諸如雷達、紅外線等不同感應資料的模態資訊。

此外,模態的型別定義也可以非常寬泛,比如我們可以把兩種不同的語言當做是兩種模態,把不同結構下采集的資料,也可以當做兩種模態。比如,僅僅一個視訊內容資料,就是一個高維度、多模態的資料資訊,其中包含了標題、簡介、評論、字幕等文字資訊,也有視訊幀的影像、聲音,以及連貫動作視訊片段的視覺、聲音資訊。

多模態學習,從上世紀70年代就已經起步,幾經發展,現在正進入到機器學習特別是深度學習的階段。通常稱為多模態機器學習(Multi-Modal Machine Learning ,MMML),試圖通過機器學習的方法實現對多源模態資訊進行分析和理解。當前主要熱門的研究方向自然是對影像、視訊、音訊、語義之間的多模態學習。

當前,多模態學習主要研究方向有多模態表示學習、模態間對映,多模態對齊、融合、協同學習等。

多模態表示學習,研究如何將多個模態資料所蘊含的語義資訊數值化為實值向量,通俗理解就是對多個模態的資料進行相關性編碼,讓不同模態建立起對映關係。按多模態表示共享的方式,主要分為公共表示學習和特異性表示學習,後者由於是分別學習不同模態的特徵,可以應用於諸如零次學習、模態間對映、跨模態檢索等任務中。

模態間對映,研究如何將某一特定模態資料中的資訊對映至另一模態。例如,給定一幅影像,通過機器學習得到這副影像的描述,或者給定一段文字,生成一幅匹配的影像。類似於我們學習中遇到的“看圖說話”和“以題作畫”的問題。模態間對映早已可以應用於語音合成、影像視訊描述以及跨模態檢索等應用中。

此外,多模態對齊,主要研究如何識別不同模態之間的部件、元素的對應關係,以促進學習到的多模態表示更加精確,例如將電影畫面、口型、語音、字幕的自動對齊;多模態融合,主要致力於不同模態間的模型與特徵的整合,以獲得更全面的特徵,提高模型魯棒性,並且保證模型在某些模態缺失時仍能有效工作;而多模態協同學習,主要考慮如何從資訊豐富模態上學習的知識遷移到資訊匱乏的模態,使各個模態的學習互相輔助。典型的方法包括多模態的零樣本學習、領域自適應等。

近兩年,隨著機器學習的模型的飛速進展,多模態學習中出現的對映質量問題、對齊的匹配度量以及融合噪聲干擾等問題,都在實現很好的優化解決,為多模態的落地應用做好了準備。

多模態學習,正在豐富哪些應用場景?

通過以上解釋可以知道,其實很多我們熟知的AI技術都可以歸類到模態學習當中。比如,像機器翻譯,通過輸入的一種A語言即時翻譯為另一種B語言,其實質就是一種模態之間的對映轉化。類似的還有脣讀識別和語音翻譯,也就是分別將脣部視覺和語音資訊轉換為文字資訊。

在影像識別中,會應用到一種“圖片語義分割”,即嘗試給圖片的不同畫素區域對應到每一種型別標籤,實現視覺和詞彙的對應。這就是多模態對齊在空間維度的應用。

當然,基於多模態資料的豐富表示以及對映、對齊和融合的應用,可以將目前AI的三種主要感知模態——語音互動、機器視覺、感測器智慧進行多模態組合,產生全新的應用場景。

在語音互動上,“多模態深度語義理解”技術正在為其帶來更深度的應用場景。

對於前幾年的智慧音響,我們都有這樣的感觸,那就是語音互動只能完成簡單的搜尋,一旦多聊幾句,就發現機器人要麼只有萬能的“套路”公式,要麼就“答非所問”。這一問題的根源就是人工智慧無法更好的理解對話者的深層涵義,也沒有靈活的應答機制和內容。此外,也更難理解人的語氣、情緒這類情感模態資訊,當然因為沒有視覺感知,更不可能去理解人的表情、動作、姿態等資訊。

多模態深度語義理解可以極大改善這類語音互動的語義理解難題。比如,其中一個應用場景是智慧汽車的數字座艙,正在從原本單一的車載語音識別,實現融合視覺、語音、車內外場景影像的多模態識別的轉變。

在實際的語音互動中,車載智慧助手不僅可以實現語音的識別,也可以通過攝像頭識別人的表情神態、動作,比如識別疲勞駕駛、分心、發熱等狀況,以進行即時的語音提醒。語音互動也可以更加以人類的自然語言進行互動,而不必要使用生硬的指令型語言。

而在以機器視覺為主的應用中,多模態學習技術也帶來新的應用可能。

以電商平臺購物為例,使用者的一大痛點就是看到一些“心水”的好物或者同款,但不知道名字,通過拍照識別和檢索,將為使用者提供最便捷的推薦服務。另外,在電商的智慧客服,使用者也希望能夠通過簡單對話或者傳送圖片、視訊的方式處理訂單問題。在這些場景中,跨模態檢索和對映轉化技術就得到了深度應用。

比如,在商品推薦和資訊流廣告中,就需要結合海量商品影像與對應的商品語義屬性,學習影像語義特徵表達,以提高符合使用者需求的商品推薦度。而與智慧客服進行的多輪對話中,融入視覺到語言的跨模態轉換技術,可以自動實現對使用者上傳的圖片或視訊進行自動應答。

在感測器智慧上,多模態識別技術可以應用到大量的物聯網裝置場景中。通過在大量的智慧裝置中增加視覺、溫度、溼度和光線感測器,來實現多模態的智慧互動。比如在智慧空調中,加入語音互動、視覺識別指令,結合感測器判斷屋內溫度和溼度,可以根據屋內人數、位置等因素來實現更精準的控溫方案。而現在更多智慧大屏應用,也在將機器視覺、語音互動和一些智慧感測器引入到智慧硬體中,實現對屋內光線的調節、音量、觀看者狀態(離得是否太近,是否有未成年人)等因素的智慧識別和調節。

而近期,華為推出的一款針對辦公場景的智慧螢幕,可以根據視訊會議中的發言物件進行視角跟蹤,將攝像頭跟蹤、焦點人物識別和身份識別結合起來。

正如開始列舉的,多模態學習技術更主要的應用還是集中在語音和視覺的多模態識別上。在愛奇藝的“只看TA”的功能中,除了人臉識別要區分是真人還是卡通人物,還要對人體資訊,甚至還有微表情、身體語言等識別,多模態技術成為視訊場景中不可缺少的技術支撐。而在未來的聊天機器人或者智慧助手上,多模態學習將幫助智慧機器人綜合處理影像、聲音和文字資訊,同時可以進行綜合模態,甚至包括情感等特徵資訊的輸出與表達。

技術尚在中途,未來仍需努力

不過,我們仍然需要指出的是,儘管多模態學習技術已經有諸多的應用場景,但其技術實現仍然有諸多不足,也會有一些場景仍然是“偽多模態”的技術應用狀態,導致一些場景體驗仍然不能“盡如人意”。

現在的多模態技術的結合多為“鬆耦合”狀態,各個模態可以一起工作,但耦合之下還不夠十分緊密。也就是現在更多實現的是兩種模態資訊的轉化和融合。而一旦多種模態資料增加,耦合也會增多,衝突也就會增加,產生各種噪聲。比如,對於聊天機器人,如何在回覆的聲音、文字中增加情感特徵,就是一件非常困難的事情。因此,我們遇到的一批智慧機器人都很容易是冷冰冰的客服腔調,以致於我們確實不好識別對方是真人還是機器人。

多模態技術主要還是採用已標註的多模態資料來生成深度學習模型,這導致這些模型在真實場景下的泛化能力受到很大限制。現有的多模態技術更多要與知識圖譜結合,融入專家、常識等知識,利用資料和知識的聯合來讓多模態技術建立其“智慧”的作用。

此外,正如一位專家指出的,當前的多模態技術還是屬於狹隘的單任務學習,整個訓練和測試的過程都是在封閉和靜態的環境下進行,這就和真實世界中開放動態的應用場景存在一定的差異性。這距離人類在真實場景中的泛化的多模態感知相距甚遠。

未來為提高多模態的泛化感知能力,可以利用元學習的方式來讓模型自己學會如何認知新的多模態知識,實現適用於開放動態場景並具備終生學習能力的多模態模型。

而在推動AI的推理能力上,在多模態模型訓練的過程中,可以引入自監督、自學習的推理性任務,“強迫”多模態模型進行推理和思考,這也能在一定程度上讓機器去慢慢學會推理。

通過多模態學習技術實現AI的推理,看起來難度極大,這一假設還需要未來更多實驗和驗證。

總的來說,多模態技術已經在試圖“複製”人類在日常生活中的各類場景,儘可能把人類的感知資訊進行分析處理和整合,並實現更全面綜合的理解,也能結合“資料”和“知識”給出相應的回應。但這距離真正的人類級別的智慧還有質的差別。

當然,人們對多模態技術的發展前景仍然看好,相比於只側重單一模態的技術,多模態技術所構建的智慧應用場景將更多樣化,也與我們普通人期待的智慧生活更近一些。

更何況,多模態技術仍處在“襁褓狀態”,我們應該留給它足夠長的成長時間,等待美好發生。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2703077/,如需轉載,請註明出處,否則將追究法律責任。

相關文章