知面而知心(情感計算)-【VALSE Webinar】Panel實錄

深度學習大講堂發表於2019-11-01

議題1

情感計算的當前研究階段的突出問題有哪些?是否可以透過A(演算法)+B(大資料)+C(算力)就可以完全解決?

鄧偉洪:表情識別和人臉識別區別還是挺大的。因為身份和表情是人臉傳遞的兩個最基本的資訊,人臉識別可能在一些落地應用上已經取得了巨大成功,資料加上算力可以非常好地解決一些以前不可能解決的難題。

但是在表情識別方面有幾個問題:第一點是資料收集有隱私問題,很難去收集像人臉識別這種數百萬人的資料;第二點是獲得客觀的表情標註是非常難的問題;第三點,表情和心情之間,或者說表情和情緒之間本來就沒有特別對應的關係。人臉的身份標註是確定性的,就是不會“既是他又是別人”,他就是他,不是他就不是他。但是表情的標註是一個模糊的東西,它沒有一個確定性的標準,同一個表情它可以反映不同的心情。有的人擅長表情管理,就是故意裝出來的假表情掩飾自己的心情,所以這裡面有很多非常模糊的問題,表情的標籤跟身份的條件完全是兩碼事。如果這個問題沒有非常好地解決,光加大資料量,它可能不一定有這種人臉識別、身份識別這麼好的效果。所以還是待一些科學上的問題解決之後,才能用加大算力或者資料的方法,來提升它的實用性。

但是針對一個特定的應用,比如分析線上教育中小孩的專注度和心情,如果去收集一些特定小孩的資料,然後做這些特定場景的訓練應該是有用的。但是至於像人臉識別那樣成功大規模遷移使用,我覺得其實挺難的。

山世光:我認為對於很多的情緒來說,收集groundtruth的標籤是一大問題。它的標註是蠻困難的,所以我覺得它真的更需要一些弱監督、半監督、無監督的方法,這是一個蠻好的問題。表情識別恐怕不可能完全像人臉識別依賴於大規模的資料,用上百萬、千萬人的資料去研究。

王上飛:我覺得第一個問題在於資料的收集上。我們今天講的主要是表情識別,但是使用者的表情不代表使用者的情緒。比如我們在跟人交往的時候,微笑並不說明你一定喜歡這個人,它可能只是一種社會性的互動而已。

在自然狀態下,收集大量的自發的表情資料是非常困難的。當前的表情資料庫通常是在實驗室環境下收集的,或者,如鄧老師所說的,從電影片段中擷取的。電影片段中擷取出來的表情影像是演員做出來的表情,只不過演員的表現力比較豐富而已。在真實的人際互動環境下去收集大量的自發的表情資料是有很多困難的。

此外,目前大多數的研究把表情識別看成了一個模式識別的問題,但表情實與人的情緒有關。如果能夠從人的情緒方面去建模,並把它加入到演算法當中,可能會對當前的情感計算的研究提供新的思路。

再者,剛才山老師也說了,弱監督學習、半監督學習,或者自監督學習是演算法層面值得研究的方向。確實對錶情和麵部動作單元的標註是非常消耗人力的。

曾加貝:表情識別如果想要透過A+B+C的方式完全解決的話,我認為首要解決的問題,是給一個客觀的標註。如果標註不夠的話,我們可以在演算法上,用一些弱監督或者無監督的方式來做。一旦我們知道怎麼採集客觀的資料,就可以在資料上有所作為;當我們採到了一些資料,如果再有算力的話,就可以把它完全解決了。

表情和情感不能完全畫一個等號,我覺得情感計算當前研究階段的另一個突出問題是,情感計算不像其他問題可以定義出一個比較通用的任務,比如說識別出來人的身份或者估計出他的年齡。情感計算沒有這樣的一個特別通用的任務,雖然現在我們大家都集中在做表情識別,而實際上我認為情感計算它可能是更加偏向於一個特殊的需求,比如說判斷這個人是不是抑鬱了、內心是不是快瀕臨崩潰了、是不是緊張了,或者在某種條件下是不是崩潰了。我覺得這些問題很難被定義成一個非常客觀、非常標準的通用任務模式。所以如果是針對廣義的情感計算,這也是它的一個主要問題。

議題2

人臉識別技術已經進入諸多使用領域,情感計算方面(比如表情識別)近兩年是否也會有類似的趨勢?如果有,在哪些場景可能最先邁入實用?

山世光:我覺得表情識別不會像人臉識別那樣全面鋪開式地走向應用,它可能會逐漸地滲透到一些實際的應用領域裡面去。

在人機互動領域,我們現在跟華為合作,有可能會透過對人面部的分析測量一些生理指標(比如心律等),把這樣的一些技術用到人機互動上去。笑臉檢測或者是一些特定表情的檢測,在拍照等方面都有可能獲得應用。

在自動駕駛或者非完全的自動駕駛領域,一些情感計算領域的技術,也是有可能可以得到應用的,比如駕駛員的疲勞狀態、危險行為檢測,比如檢測駕駛員轉彎時是否有看後視鏡。

在醫療領域,情感計算可用於某些特定的精神性疾病的輔助診斷,比如自閉症兒童的一些特性的檢測。在刑偵或者金融防詐騙領域,它可以做一些輔助"測謊",但是它這個測謊肯定是要打引號的,只是提供一些線索,比如眨眼次數、情緒的正向和負向,或者有沒有出現一些不該出現的情緒或者表情等等。

所以簡單總結一下我的觀點,表情識別可能會在很多單點上逐漸地得到應用,但是全面鋪開的應用還需要一些時間。

鄧偉洪:表情識別如果實際應用的話,應該是一種滲透式的。相當於先在簡單的表情分類體系(比如特定場景分類體系)中應用,例如笑臉檢測,就是否有笑臉,這兩類是很明確的。或者是積極還是消極,就分這兩類,應該是一種比較客觀的標準。如果是疲勞駕駛檢測,只要有合適的資料,應該是可以逐步應用的。

但是如果在沒有使用者配合的情況下,針對人臉做一個全面的情感識別,還是需要比較長的時間。包括心理學上都需要有突破才有可能。而且最後多模態結合才有可能真正地邁向使用,光憑一張臉,對真正的情緒識別也許不是特別完整。

王上飛:情感計算(比如表情識別)會在某些領域中應用,但目前來說,它可能不會那麼大規模地去普及。有些特定場景已有應用的例項,比如有這樣的一個機器,它可以識別笑臉,如果你笑得很好,它可以獎賞你一個冰淇淋。

情感計算可以應用於娛樂中,此時識別率不是那麼的重要,有一定的識別率就可以起到娛樂的效果。還有一些可以起到輔助作用的場合,情感計算也可以應用。這不侷限於表情識別,比如,可以從使用者發表的文字中,檢測使用者是不是有抑鬱的傾向,為專業人員的診斷提供輔助。

曾加貝:在應用方面,我贊同其他幾位老師的看法,在問題定義得比較簡單清楚、對識別率要求不高的地方應用會比較早。

然而,如果是去深入瞭解人類內心深處的狀態,我覺得目前的表情識別技術做不到。也許以後加一些別的多模態的資訊,會慢慢地能做到。但是,表情識別中的笑臉檢測、簡單的幾個情緒分類,僅僅作為娛樂的話會用得比較多,或者用得比較成功。

議題3

不同的種族或者不同的年齡段,對於同一情感狀態的表達是否存在不同的特點?

山世光:我覺得這個問題更多的是一個心理學研究範疇的問題。首先不同種族、不同年齡段,對人類情感的表達肯定有不同方式的。“個性化”可能也是待研究的一個問題,有些人就是笑不漏齒,而有些人就是開懷大笑,那麼每個人的基準狀態就非常重要。舉一個例子,一個人若特別喜歡笑,他的臉就變成了一個笑臉,它的neutral(中立)狀態就是笑臉,所以分析他的情緒變化,就用他的中立狀態作為一個基準,那麼他在表達某一個情緒的時候,他的表情可能就是要和他的中立狀態對比,然後找到其中的差異變化,而不是直接拿他的照片去和通用的表情識別模型作比較。

我簡單總結一下,這個問題比較偏心理學的範疇。每一個人其實他都有自己獨特的表情正規化。我們在做研究時可以更多地關注個體表情與其基準表情的相關性。

鄧偉洪:這應該是心理學領域也爭論不休的問題,就是相當於種族效應達到了如何程度,不同種族之間的臉差別有點大。

Ekman認為不同種族表達六類基本表情的時候,基本上是一樣的。但是後續的研究針對這個觀點產生了很多爭議,在心理學裡總能舉出反例。例如最簡單的,說所有人的笑臉都一樣,總有人能舉出反例反駁你,所以這可能是一個程度的問題。

我看了一些文章,他們基本的觀點是“越複雜的表情,人和人之間的差異性越大,越基本的表情差異性越小。”就像大家對笑臉應該有較統一的表達。但是驕傲、輕蔑這種不太常見的複雜情緒,人和人之間的表達差異就非常大。不僅在於種族差異,就像山老師剛才說的,不同人的表達方式都是不一致的,我不同學生表達“調不出程式的苦惱”都不大一樣,我有候時候就會誤解,必須跟每個人長期接觸,做一個個性化的自適應,才有可能把他們的表情識別好。所以說情感識別最後要真正落地應用,不僅需要適應到種族或者年齡段,而是要適應到個人的這種程度。

所以它真正對機器學習(或者說遷移學習)、小樣本的要求可能比人臉識別要高得多,因為人臉識別它的遷移能力非常強,訓好一個大模型可以放到各種地方,基本上識別率都還可以。但是表情識別可能面對跨庫實驗就不太行了。

曾加貝:我補充一個明確的結論,不同種族之間表達表情的方式是不一樣的:西方人更傾向用嘴附近的變化表達情感,東方人更傾向用眼睛附近的變化表達情感。

這一點我們可以用西方人和東方人設計的顏文字看出來。比如我們(東方人)在表示笑臉的時候,用的是三角形表示兩個眼睛,橫線表示嘴(即“^_^”),我們表達表情是在眼睛這塊。然而,西方人設計的顏文字笑臉,是一個冒號,一個後括號(即“: )”),表達表情集中在嘴這塊。

議題4

情感狀態與心理健康有緊密的聯絡,與心理活動、心理分析也有密切聯絡。目前是否存在明確的關聯或計算正規化,將情感計算應用於心理健康檢測?

鄧偉洪:我在這方面沒有特別的經驗,我也是隻看到一些檔案裡有記錄應用到抑鬱症檢測的成功案例。

但是總的來看心情是一個隱變數,然後表情是一個表面,它跟隱變數之間的聯絡是一個機率分佈,沒有一個確定性的對映。如果要做好這方面的應用,個性化的遷移學習可能是一個必須要解決的問題。

山世光:我對這個問題還沒有理解得很透徹。基於視覺來做情感計算可能會有幾個不同的層次。第一個層次是和生理相關的。第二個層次是和心理相關的,比如是否無聊或者疲勞。第三個層次是和精神狀態相關的,比如是否抑鬱、焦慮,甚至狂躁。第四個層次是人格特質,比如這個人是非常親和、攻擊性比較強,還是非常盡職盡責等等。人類在觀察人時的“察言觀色”也會體現在不同的層次上,甚至一些非常有經驗的人,透過觀察一個人的臉,就會得知這個人是否自閉、是不是有抑鬱傾向等。

我認為,面部雖然是一個簡單的區域,但蘊藏了非常多的資訊。我覺得情感狀態與心理分析還是有一定的關係。

議題5

目前情感分析往往基於影像或較短的影片序列,是否有必要研究長期的情感狀態分析? 

曾加貝:影片能捕捉一些時序變化的特點,這是它相對於影像的一個優勢所在。但是從模型或者從資料上來說,影片不如影像豐富,這是它的缺點。

“有沒有必要研究長期的情感狀態的分析”這個問題,我個人認為是有的。但是問題定義可能能跟我們常規認為的識別影片表情不太一樣,長期情感狀態的研究分為兩類:一類是檢測某種情緒是否在這一段時間出現過,有點類似於時序上的檢測問題;另一類是檢測某種情感,在一段時間內是否沒有出現過。比如判斷一個人精神是否有疾病或者障礙,評判標準並不是判斷是否出現了某種異常症狀,而是看這個人是否長期都沒有出現某些正常表現。

從這個角度來看,長期研究情感狀態分析是有必要的。但是否需要透過影片這種方式來長期分析,我覺得目前還不大確定。

山世光:影片的資訊量相對影像會更大一些,比如針對剛才我說的個性化基準的問題,如果拿到一個人的表情影像,再加上一個動態的影片序列,理論上來說它的分析效果應該會更好,只是影片資料量大,標註可能會更難。

鄧偉洪:雖然我們做的是影像資料庫,但是表情絕對是一個基於影片的問題。我們做影像只是因為沒有辦法採集到這麼多表情的影片序列,因為當時受到資源所限和隱私的問題,相比較而言,圖片收集方便很多,所以才做影像資料庫。如果以後資源、資料方面隱私不受限的話,表情絕對是一個影片的問題。表情是一個動態的過程,特別是微表情,用圖片是很難識別出來的。

如果要真實準確地分析一個人長期的情感狀態,必須有一個長期的觀察過程,包括剛才山老師提到的中立狀態,只有瞭解一個人的中立狀態,才能瞭解其他情況的狀態。

人類表達情感的時候是很個性化的。我們判斷不熟的人的表情,經常會有誤解,甚至判斷朋友的表情也會經常產生誤解。如果不經過長期的學習,其實人去判斷情感狀態都有難度,何況是機器?比較實用的大規模情感分析,肯定應該是長期的。

議題6

情感計算值得探討的研究方向都有哪些?未來會有哪些新的研究熱點?多模態資訊(比如文字、表情、語音等)是不是對情感分析幫助比較大?研究的可能性有多大? 

山世光:情感計算領域機會還是非常多的,因為真的還很不成熟。多模態其實在很多場景下可能獲得更加一致的結果,包括語音、文字、影像和影片,我覺得這是一個值得研究的方向。

建立大規模多模態的資料集本身有難度,需要依賴一定的場景,所以具體到應用場景的時候,還需要考慮資料建設和演算法設計。

就我個人來說,目前一個值得探討的方向是廣泛存在的資料問題,我們無法依賴於強監督大規模的資料,所以要去研究弱監督小規模的資料如何驅動機器學習。同時,如何把心理學、神經科學領域關於情緒的一些知識體現在演算法設計上,也是一個非常好的方向。

還有,可以關注熱點的話題,比如這兩年越來越多的研究者或者老師在做焦慮、自閉症等等精神科方面的診斷,特別在和非常多醫院的精神科合作。

還有一個從學術研究的角度非常值得關注的方向,叫personality ,透過看面相來分析人格特質。這個就屬於更加寬泛的情感計算,我想這些都是從不同的應用出發,探討其是否有可能不依賴於大規模的資料。

鄧偉洪:我們可以對比表情識別和人臉識別之間的區別,匯出不一樣的科研方向。

第一點,從類別看,人臉識別的類別完全取決於表觀外貌,除了極個別整容或者雙胞胎,通常身份標籤極其確定。但是心情往往藏在表觀裡面,而且不同的人會有不同的誤解。如何根據資料和標籤,估計出準確的標籤,這可能是一個比較好的科研發展。當然,人臉識別其實沒這個問題,人臉識別最多做一些噪聲標籤的訓練即可。但是對錶情識別卻是一個極其重要的問題。

第二點,從它的類內的變化差異來看,人臉變化差異包括姿態、光照等等。主要集中在兩個影像質量。這些變化在表情識別裡面都有,人臉識別和表情識別都有姿態、光照問題。但表情識別還有一個獨特的問題:個人之間和種族之間的差異性巨大,這也是導致識別率低的一個很重要的原因。其實它的類內變化比人臉識別還要誇張,不同的階層不一樣,同一個種族或者同一家人裡不同人的表情表現都不一樣。從科學角度來看,如果以後要像人臉識別一樣大規模應用的話,遷移學習、弱監督學習、無監督學習變得極其重要。

第三點,從使用過程來看,表情識別不會有使用者主動配合的情況,因為使用者主動配合去做情感是沒有任何意義的,假裝的表情識別出來也沒有意義。所以表情識別的應用應該是自發性的,攝像頭肯定不是確切正對著使用者的,而是會在某些姿態、或者有遮擋的情況下拍攝,從技術上看,跨姿態、遮擋情況下的表情識別,是大規模應用比較大的瓶頸問題,最近一些論文透過注意力機制來解決這個瓶頸問題,是一個挺好的方向,大家可以關注一下。

曾加貝:我覺得情感計算最後不會侷限在表觀上的表情識別或分析,而更有可能是多學科的研究,去探索情感表達與衡量上的一些更本質的內容,比如說它是如何去衡量一個人的內心究竟是什麼樣子的,是透過生理指標呢,還是透過一些其他的手段?然後又如何把這些衡量內心的指標,和表面上表觀的現象給聯絡起來?這個才是我們最想做的事。

其實我們大家在說的表情識別,從某種程度上來說也可以認為是在找內心和表觀現象的聯絡的模型,只是在表情識別這個問題裡,內心這個層次的內容被我們簡單地定義成了幾種基本情緒,表觀的內容則是我們看到的臉上的表情。我覺得以後至少在找內心衡量標準、找內心狀態和表觀現象的聯絡這個方向上,做得更加深入,更加符合實際,情感計算的研究,至少在我看來,才會更加像一個科學的研究。

關於未來新的熱點,短期來說,可能是更加針對於應用的。就像山老師說,可能會和一些精神科的醫生,或者和一些心理學家,或者和專門研究情緒、研究表情的人合作,針對一些特定的場景做的一些應用研究,可能短期內會成為一些熱點。

觀眾提問

情感計算值得探討的研究方向都有哪些?未來會有哪些新的研究熱點?多模態資訊(比如文字、表情、語音等)是不是對情感分析幫助比較大?研究的可能性有多大? 

鄧偉洪:我們標註量不是很大,只是曾經嘗試過做三萬多影像的標註,跟公司相比太小了。

情緒識別的標註非常困難,資料標註肯定是一個獨特點。另外一個獨特點是怎麼去泛化到一個與標註環境不是很相近的情緒識別場景,這應該是一個非常重要的研究方向。

表情分類或者表情迴歸的泛化能力遠遠不如人臉識別,如果不進行弱監督學習或遷移學習,在目標應用上會特別困難。除非是在分類體系簡單、分類結構明確的情況下可以做出來,在稍微複雜點的演示上估計最後都很難成功。

情緒識別核心的獨特點,我認為一個是標註問題,另一個是識別演算法的泛化能力。

相關文章