報告包括以下幾個方面的內容。
情感是大腦的高階活動,它是一種複雜的心理和生理狀態,高階活動包括記憶、學習、決策和情緒等。情緒是情感的一個外部表現,是我們對事件內在或外在的反應。一個成功的人通常要同時具備高智商和高情商。情商反映一個人控制調節自己情感的能力,以及處理自己與他人之間情感關係的能力。情感很重要,它會影響我們做決策。情感計算要賦予計算機像人一樣的觀察理解和生成情感特徵的能力,最終使得計算機像人一樣進行自然親近和生動的互動。情感計算中基本問題包括情緒識別。
以’emotion regulation’和’emotion recognition’作為關鍵詞搜尋文章,我們發現相關研究研究逐步增加,最高有每年1700篇左右。
Charles Darwin為情感領域做了兩大貢獻,一個是提出動物情感和人類情感是一致的,另一個是最基礎的情感,包括憤怒、恐懼、悲傷等,在不同物種和文化中是共享的。第二點不僅在情感上適用,在語言上也是適用的,比如在不同的人種和文化中,“爸爸”、“媽媽”發音都是比較類似的。William在著作中認為情緒是人們對於自己身體所發生變化的一種感覺,先是有身體的變化才有情緒的感知,任何情緒的產生都有一定伴隨身體的變化,包括面部表情、肌肉緊張、內臟活動等,可以通過外部感知推測情緒發生了什麼樣的變化。
2016年在《科學美國人》上有關於人類未來的20個大問題,其中一個是“我們能用可穿戴技術來探測自己的情緒嗎”,說明我們還是希望能夠了解自己的情緒。現在經常有人戴手環,使用各種APP,來記錄每天走了多少步,吃了多少卡路里的食物,希望藉助各種外部探測手段來了解自己。從這個意義上來說人們需要了解自己的情緒,進而來調控情緒。
下面介紹一下情感科學在學術界和工業界的動態。微軟全球執行副總裁沈向陽認為,人工智慧的研究要強調機器人與人之間的感性化互動,強調情感計算,實現情感智慧。李飛飛教授認為要加強對情感情緒的瞭解。MIT的Rosalind教授認為情感在一系列智慧活動中都起到核心作用,如感知、決策、邏輯推理、社交、行動選擇、言語措辭等。AI研究如果忽視情感,就難以取得進展。
譚鐵牛院士也曾說過“機器人有智商沒情商”。在人機互動領域,Pepper、MIT以及日本一些公司做出的機器人能夠像人一樣自然親切地進行互動。
在醫學領域,情緒識別還為精神疾病診斷治療提供依據。比如自閉症的診斷,利用複雜的量表檢測比較困難。如果有一些比較好的情緒識別的工具,比如戴腦電,在病人活動的時候進行實時監測,可以對診斷提供幫助。同樣還可以應用到自閉症的診斷和治療中。
2014年的“馬航370”事故,迄今原因仍然不明。其中有一個疑點是,機長在飛機失聯前不到一個月時,在電腦遊戲中操縱虛擬航班飛入南印度洋的深處,大家因此懷疑他是不是一直有自殺傾向。國際民航組織(ICAO)要求成員國的飛行員達到一定的心理健康標準。
2015年3月份德國之翼航空公司在法國阿爾卑斯山脈墜毀。後來得知副駕駛員在飛行過程中多次慫恿機長上廁所,機長離開後他反鎖駕駛艙,啟動下降按紐,導致墜毀。調查中得知副駕駛確實有心理疾病,上一個例子是推測,而後一個已經被證實。所以飛機員的狀態對飛行安全很重要。情緒識別準確的話,可以避免此類災難的發生。
情緒識別中一個新的領域叫做Affective Brain-Computer Interaction,也就是情感的腦機結合。腦機介面在大腦和外界裝置之間建立直接的通道。但是,這個腦機介面不僅僅依賴於直接對大腦訊號的測量,還包括其他心理、生理的訊號,包括機電、眼電、心電等等。
上圖是歐洲關於腦機介面發展的路線圖,是Horizon2020的計劃,涉及腦機介面的研究、提高、增強、恢復和替代。
白皮書裡給出了一些建議。首先是關於大腦狀態的監測。然後,一個能夠監測人腦精神狀態的客觀度量對於決策很有幫助。類似的,在比較難做決策的時候,可以暫時放鬆一下,在更好的狀態下做決策。最後,一個很重要的問題是如何識別情緒,並且保證魯棒性,還有如何優化情緒狀態。
傳統識別情緒的方法包括面部表情、語音和肢體動作。這些資料比較容易獲取,但是可靠度不是很高,受文化背景影響較大,也不太適用於殘疾人。
現在出現了基於腦電識別情緒的方法,相較於傳統情緒識別方法,有更高的可靠性。基於腦電的方法要求被試者戴一個電極帽,然後採集大腦的訊號。所以它的資料包括空間和時間,相當於四維的時空資料,每一個電極相當於一個時間序列。
基於EEG情緒識別的一般流程如上圖所示。首先,設計實驗,找被試者,對他施加一些刺激。然後,對他進行資料採集。接下來是資料預處理和特徵提取及分類。
EEG情緒識別裡面有哪些關鍵問題呢?情緒識別有哪些特徵比較好?情緒識別最關鍵的頻段和電極位置在哪裡?EEG如何與其他模態訊號進行多模態情緒識別?並且不同人的EEG訊號差別很大,怎樣把這個人的模型用到另外一個人模型上也值得思考。
今天我向大家介紹一下我們組近期的兩個工作。一個是關於風格遷移對映的多元遷移學習,第二是跨被試多模態情緒學習。
首先介紹一下資料集。這個資料集SEED是上海交通大學呂寶糧教授提供的,有15個被試,看15個視訊片斷,每個約有4分鐘。受試者看完之後要對自己的情緒進行評估,然後進行休息。情緒分成三類,包括積極的、中性的、和負面的情緒。電影都是《唐山大地震》《泰囧》這種刺激性比較強的。
這些資料集做了預處理,包括降取樣和特徵提取,這些特徵也可公開下載,謝謝呂老師做的很好的鋪墊工作。
傳統方法一般是把EEG資料提取特徵然後拼接起來,再建立特徵向量到情緒標籤的對映。這樣導致電極之間的空間關係丟失。
我們前期做了一項工作,保留電極之間拓撲結構,將電極位置轉換為影像,利用CNN進行測試,得到比較好的效果。深度學習用到基於腦電的情緒識別是可行的,而且效果還不錯。
但是更進一步,對一個人採集資料,進行訓練後,構建了一個模型。但是如果來了一個新使用者又要重新建立模型。原來的模型不夠魯棒,所以我們要研究如何將一個人的模型遷移到另一個人。傳統機器學習針對一個任務或領域訓練模型,對另外一個領域或任務又要重新訓練模型。遷移學習要把這個領域的知識遷移到另外一個領域。
我們做的是基於風格遷移對映的多源遷移學習。傳統機器學習是在不同領域或任務上分別訓練模型,遷移學習不同的領域和任務共享知識。我們把知識輸出端稱為源(source),輸入端稱為目標(target)。
現在要考慮它的應用場景。比如說我們針對過往被試訓練了模型,現在有了一個只有少量標註的新被試,我們如何基於過往被試的模型實現新被試高精度的分類?我們提出一個多源遷移學習框架。選擇合適的源,在每個合適的源上,消減目標和源的差異,使源上的分類器直接用於推斷目標中樣本的情緒標籤。在多分類器整合框架下,我們實現了對目標域的高精度分類。
這個過程包括這樣上圖三個步驟。首先,我們有很多個源,來了新被試後,要從以前被試者中選擇合適的然後遷移到新的被試上,也就是進行源的選擇。第二步是特徵對映,把以前的源和現在的目標之間建立一個對映關係,這裡通過一個變化矩陣學習M,新被試可以通過M對映回來。最後,將以前的分類器整合得到這個標籤。核心問題是如何學習M。
我們受劉成林老師發表在PAMI上的文章啟發,原有工作是字元識別中針對不同字型風格的遷移,其對映方式是仿射變換。上圖是我們定義的目標函式,o相當於源,d相當於對映終點,後面兩個是正則項。這個目標函式是二次規劃的問題,可以有一個解析解。
現在問題是如何針對新樣本定義對映終點。我們這裡不是直接做對映,採用定義原型的方式。比如說有三類情緒,傳統方法通過三類分類器可以把分類面得到。離分類面越遠的樣本越容易被區分,越近越難以被區分。離分類面很近的樣本如果也遷移過去的話可能會導致負遷移,所以分類面上的樣本可以去掉。我們對以前情緒樣本進行聚類,聚類中心是原形,目的是向新的聚類中心做對映。有兩種原形定義的方式,一個是基於k均值聚類的方法,一個是基於高斯模型的方法。
做遷移的時候,有些目標樣本上是有樣本標籤的,置信度就比較高,但是還有一部分目標沒有標籤,這時要如何遷移呢?我們需要定義置信度,以前的做法是把最近的距離和第二近的距離做一個差,定義一個函式。我們定義加權距離,有兩種方式,一種是監督式,僅僅只用有帶標籤的源裡的資料,沒有用到沒有標籤的資料。
而半監督式不僅利用到帶標籤的資料,還利用沒有標籤的資料。我們通過分類器對它進行預測,每個預測有一個概率值,得到置信度之後進行遷移學習。
這是遷移學習的結果,比較之前利用的一般的模型,這個模型是把很多被試的資料放在一起進行訓練,比如說被試前70%進行訓練,後面30%進行測試,得到一個分類器,它相對於單個樣本訓練模型更加魯棒。最後結果是三分類情況下平均正確率提升22.8%。
然後我們進行視覺化,以前的方法比較難以區分情緒,通過遷移學習後能夠比較好地區分開。準確率還與源樣本的數目有關係,右下的圖體現了選擇不同源的個數對分類正確率的影響,我們發現選擇7個源就可達到較好的效果,如果選擇源的個數太多,會增加計算複雜度。另一方面,如果標籤越多效能越好,但我們從上圖可以看出,標籤數目比較少的時候也能夠得到比較好的效果。
我們把學到的標籤對映回腦地形圖,進行視覺化。我們在腦電上觀察,源和目標在處理前很不相似,但遷移之後比較相似。在我們提出的方法中,僅需採集新被試的少量標註樣本,就能使現有模型直接用在新被試,具備重要的實際應用價值。本方法要求新被試的少量標註樣本,在此基礎上,也可以利用新被試的無標註樣本,可在監督學習及半監督學習下工作。在遷移中使用多個源,可有效提升模型的泛化能力。這個工作已經被IEEE Trans. On Cybernetics接收。
我們的第二個工作是跨被試多模態的情緒識別。
情緒識別任務有兩大特點,一個是多模態,模態包括面部表情、語音等各種各樣的生理模態。另一個是跨被試,如何從以前的模型遷移到新的模型。
我們用多檢視變分自編碼來融合多種模態。我來分享一下多檢視變分自編碼,我們現在有兩個模態,一個模態是腦電,一個模態是眼動,腦電和眼動都反映情緒。
因此就把它當做多檢視理解,通過多檢視編碼找到兩種檢視之間的隱含表徵。以前的傳統自編碼把隱含表徵的先驗和後驗都當作高斯分佈。這裡有兩個模態,做了一個混合高斯,可以通過腦電自己生成腦電,腦電可以生成眼動,在這種框架下二者可以互相生成。多檢視變分自編碼是一個多檢視表示學習,利用了貝葉斯推斷。腦電和眼動有一些權重,權重體現出對情緒識別的重要性。
現在我們來看一下跨被試多模態資料建模場景。源領域有部分標記資料,這是半監督的,目標領域都是沒有標記的。源領域和目標領域都有多種模態,目標是做一個目標領域和源領域通用的分類器。
上圖紅色框裡是源領域的變分自編碼,藍色框裡是目標領域的變分自編碼,他們在隱含層是共享的。我們想學習的這些隱含的表示,使二者隱含表徵的距離更小,相當於加了約束。另外一方面,源領域內做分類學習,領域間要對抗,使得兩個領域隱含表徵分佈接近,同時使得隱含表徵在源領域內有很好的效能。所以目標函式包括圖中三個部分。
上圖是實驗資料,不僅有EEG還有眼動資料,但是眼動資料量少一些,只有9個被試。另外還有人臉表情的資料,有30個被試,這都是多模態資料集。
和以前的遷移方法進行比較,效能得到提升。藍色和紅色代表不同領域,如果以前沒有領域對抗的話,兩個領域差異性比較大,如果用我們這個領域對抗進行約束的話,差異性小很多。這個工作發表在ACM MM2018上。
最後做一下總結和展望。我們設計了用於高精度EEG情緒識別的深度學習方法框架,並針不同實際場景,分別提出了監督式、半監督式和無監督遷移學習法,使得情緒識別模型能夠跨被試使用,具備重要的應用價值。接下來還有很多方面可以繼續探討,比如遠距離的遷移學習,源被試之間如果差異特別大,直接遷移很難,需要從不同被試中選擇遷移路徑。還有在zero-shot learning,one-shot learning和online learning上的應用都值得繼續探討。
參考文獻連結:
https://pan.baidu.com/s/1Ul6T1klBaJt1ZC46Lbd3Ag
密碼:
xqs3
接下來是提問環節。
提問者1:EEG不像表情訊號可以直觀看出是哪種情感,EEG訊號在採集的時候,資料庫也是通過視訊標籤來做的,但不同人對視訊感覺是不一樣的,可能高興的視訊一個人因為笑點比較低沒有產生很大情緒的反應,這樣會不會造成資料庫本身不是很可靠的問題?在腦電採集的時候,標定可靠性方面你有什麼更好的建議?
何暉光:你這個問題問得非常好,因為不同的人對相同刺激反應不一樣。我們對情緒打標籤不是通過視訊去打的,是在做了實驗之後的一個自評估環節,被試者要通過自己的判斷打一個分數。
提問者2:這個資料庫的標籤是很平均的標籤嗎?
何暉光:給的這些視訊衝擊性都特別強,刺激性特別強,都是表較能帶來情緒波動的視訊。
提問者3:直接將腦電資料應用到多模態情緒識別可靠嗎?
何暉光:我們不是直接將腦電資料拿過來用,也利用各種特徵進行了評測,比如是哪個波段,是什麼熵。另外一個方面,腦電差異性太大,所以我們想到用遷移學習來做。
提問者4:特徵是用的什麼呢?
何暉光:這個特徵用的是功率譜。比如說腦電之前有一定的預處理,瞭解到功率和微分熵比較好,便加以利用。現在也有直接用未處理資料的,效果有的好,有的不好,還在繼續探討過程中。
提問者5:您在第一個工作中,資料怎麼劃分?
何暉光:源資料是已經採到的資料,目標資料是來了一個新的被試,需要從這源被試相似樣本來做遷移,如果用不相似的樣本會帶來負遷移。
提問者6:差異性是隻有不同的人表現出來的嗎?
何暉光:這裡是通過不同的人體現的。
提問者7:想問源樣本一下選了多少個?
何暉光:大概選7個還不錯,如果選太多後面計算量太大。
--end--
作者簡介:
何暉光,中科院自動化所研究員,博生生導師,中國科學院大學人工智慧學院腦認知與智慧醫學教研室主任、崗位教授,中科院青年創新促進會優秀會員。中科院腦科學與智慧技術卓越中心團隊成員。中國圖象圖形學會視覺大資料專委會及機器視覺專委會常務委員,IEEE高階會員,CCF-CV專委會委員。分別於1994年(本科),1997年(碩士)畢業於大連海事大學,2002年在中國科學院自動化研究獲博士學位。曾在美國羅切斯特大學、加拿大滑鐵盧大學、美國北卡大學教堂山分校做博士後、高階研究學者。何暉光博士先後主持5項國家自然科學基金(包括國家自然基金重點專案)、2項863專案等,先後獲得國家科技進步二等獎兩項(分別排名第二、第三),北京市科技進步獎兩項,中科院首屆優秀博士論文獎,北京市科技新星,中科院”盧嘉錫青年人才獎”,中科院青促會優秀會員等榮譽稱號。任國家自然科學基金, 國家863計劃以及科技部國際合作專案的評審專家。其研究領域為腦與認知科學,模式識別,醫學影像處理,腦-機介面,計算機圖形學等, 其研究結果在IEEE TNNLS, IEEETCyber, NeuroImage, Human Brain Mapping, Pattern Recognition, MICCAI等相關領域的國內外核心期刊以及國際主流會議上發表文章120餘篇。