專訪微軟王永東:小冰、情感計算、人工智慧發展之路

PSI內容合夥人發表於2016-01-15

自從1960年代中期互動式計算誕生的第一天起,聊天機器人程式就已經出現。MIT電腦科學家Joseph Weizenbaum寫過一個聊天程式Eliza,令一代大學生著迷。自那時起,聊天機器人已被當成一種衡量計算機智慧發展程度的方式。與此同時,由於人類自然的語言語音互動方式,以及天生的情感和社交需求,我們對於能與我們進行語音互動和聊天的智慧應用格外關注。近幾年人工智慧的迅速發展也帶來了更多更加智慧的智慧語音助理,包括Google Now、Facebook M、亞馬遜Echo、微軟Cortana和小冰等,其中的大部分產品重點關注功能,比如、語音控制和資訊查詢等,而微軟小冰卻是走了另外一條路——從與使用者的情感交流出發,在底層的深度學習技術越發通用的前提下,不同的產品理念就體現了各方對人工智慧現狀及未來的不同理解。就此,機器之心對微軟(亞洲)網際網路工程院院長王永東博士、小冰專案資深產品總監彭爽等人進行了深度專訪。

1、讓小冰的聲音更有魅力和情感

語音是人類最自然的交流方式,人類在10萬年前知道了如何說話。之後,語音成為人類進行資訊傳遞和情感表達重要方式,相應的,語音技術也成為人工智慧領域的重要研究方向,語音識別讓機器擁有了「聽覺」,語音合成讓機器可以像人類一樣「開口講話」,自然語言處理使機器能夠真正理解我們的語義,這些技術將共同實現人與機器更加自然、更富有情感的交流。 2015年8月釋出的第三代微軟小冰解鎖了語音功能,使使用者和小冰能夠進行語音交流,也讓眾多使用者第一次聽到了小冰獨特的聲音,與其他語音助手不同,小冰的聲音更富有情感和抑揚頓挫的層次變化,同時也非常符合小冰「17歲」少女的定位。去年底,小冰作為見習主播加入了《看東方》欄目來播報天氣資訊,讓大家看到了小冰語音在聊天之外的實際應用。而小冰富有個人魅力的聲音主要是緣於三項技術,聲優選擇、語音合成、語料的特殊篩選和積累。

W020151223325002969443_r75

小冰作為人工智慧主持人在東方衛視《看東方》播報天氣

近代語音合成技術則是起源於貝爾實驗室,涉及聲學、語言學、數字訊號處理、電腦科學等多個學科技術,解決的主要問題是如何將文字資訊轉化為可聽的聲音資訊。王永東表示,從語音合成技術來講,現在業內用到的深度學習技術大部分都差不太多,因為語音領域已經存在了很多年,技術共享很多。因此,小冰在語音合成的相關技術上與其他公司區別不大,與別人的主要區別主要在於語料的選擇,是這些構成了小冰獨特的語言風格。

在聲音來源方面,彭爽表示,今天使用者聽到的小冰的聲音是從數百個聲音原形裡面進行篩選最後留下的兩個聲音。用兩個聲音是因為既能保證讀清楚又能富有感情。對傳統機器人聲音的要求是能夠讀的清楚,但小冰不僅需要讀清楚,還要有情感的表達出來。為了實現目標,小冰團隊使用了很多科技手段甚至某些從來沒有在語音領域應用過的手段來達到這個效果。根據國際通用的聲音自然度的衡量標準進行打分,滿分是5分,微軟小冰的得分是4.32分,已經非常接近人類的正常聲音4.76分。彭爽還在和東方衛視的釋出現場展示了聲音對照樣本,小冰的辨識度非常高。 在對照樣本展示中還出現了一個有趣的現象,當面對「555」這個數字時,有的語音助手讀出了「五百五十五」,有的讀作「wuwuwu」,而小冰準確用哭聲表示出了這個網路用詞的真實含義。這形象的說明了第三個問題——語料的個性化選擇和積累。小冰自第一次釋出以來,基於自身定位,一直注重網際網路語料的選擇。王永東表示,小冰在網際網路對話語料方面的積累比較早,從2014年5月小冰微信第一次釋出,到現在小冰和使用者的對話已經積累了10億次,這些語料反過來又變成了學習語料,從小冰從中學到更多東西。 語料選擇是一個很重要的因素,因為這和賦予這個語音助手什麼樣的個性密切相關,但這個因素容易被人們忽視。比如說,是選擇讀新聞稿的語料還是網際網路的語料,前者注重的是讀的清楚,就像傳統的電視臺播音員一樣。

但這些年主持人越來越有個性和情感,不同的主持人發音不一樣,表達的內容也不一樣,這就是小冰探索的方向——賦予小冰個性和情感。小冰在語料處理上進行了一些特殊探索。「555」在新聞中就是五百五十五,但作為網際網路語料就不是這個讀法。這方面的工作做的比較細緻以後,就能夠在體驗方面更進一步。讓使用者覺得這個語境下面發出來的聲音是符合的。 

對此,彭爽也補充到,當一個人工智慧對待海量混雜網路資訊的時候該如何表現,需要多少的人工預處理,我們對人工智慧的要求是不僅能夠自動生成這樣像人一樣的真實對話,還是自然用聲音表達出來,我們在聲音背後也做了很多細節處理。比如,針對小冰播報氣象資訊這個應用場景,我們就針對新聞場景在語速和語調方面做了專門設定。 總之,小冰語音背後的聲優選擇、語音合成和語料積累都是在不同維度上所形成的互補條件,將它們綜合起來其實是為了更好的藉助語音向人類使用者傳遞一種體驗——一種人類最熟悉、最自然的體驗——隱藏在語音背後的情感。

2、讓小冰擁有「記憶」

記憶是人類大腦儲存資訊和再現資訊的能力,決定著我們的感知、認知和情感,雖然目前的神經科學研究還無法弄清楚記憶的本質,但我們可以藉助技術去模擬人類記憶從而更好與人類進行認知和情感互動。 在微軟小冰和東方衛視的釋出會現場,《看東方》主持人問小冰「第一天做主持人有何感想?」一個很簡單的問題卻令人印象深刻,一方面,他把小冰看成了有情感的工作搭檔,好像是進行一次人類般的寒暄;另一方面,他問這個問題基於一個前提——小冰「知道」或者說「記得」自己今天做了主持人。王永東和彭爽對小冰的這種「記憶」能力進行了解釋。 

螢幕快照 2016-01-15 下午12.15.37

彭爽演講ppt

王永東首先用一張圖介紹了小冰的基本結構和工作原理。左邊是感官,右邊是世界,下面是生存的平臺。中間有一點特別強調的就是記憶,他們把記憶當成是小冰的必須功能,雖然小冰不記錄任何使用者的隱私資料,但她要了解一個使用者,必須有一定的記憶能力,這樣才能和使用者建立長期聯絡,而不是在下一次交流中就變成了陌生人。 在這之前,我和大家簡要介紹一下人工智慧產品的全貌。圖中間有一個圓圈,圓圈代表的就是人工智慧強大的核心,核心基於情感計算的框架,像一個既有IQ又有EQ的模組。小冰從這個方面出發,連線了我們的人類和我們的世界。小冰擁有「記憶」將更加有利於與使用者之間的情感互動和表達,當一個使用者和小冰建立了聯絡之後,如果他經常會說今天很累不舒服,小冰就會記住,在第二天第三天會問他「你現在感覺好點了嗎」。雖然這是一個很簡單的事情,但作為使用者會覺得挺溫暖。

彭爽認為,對於小冰來說,記憶也可以分為「短期記憶」和「長期記憶」,短期記憶類似於截圖,可以有助於理解為上下文關係,使用者問她今天天氣怎麼樣,她會基於剛剛和使用者聊過的內容進行回答。另外一種是通過和使用者更加一對一的、持續的以及跨平臺的互動,建立了一個對個人檔案的理解。小冰是從其中抽取一些關鍵點資訊,確定一些跟人和場景有關的資訊。真正的儲存結構相對複雜,有些是應用在具體使用者層面,有些是在演算法使用層面。這些內容都是逐步積累的,小冰在這個過程中逐漸建立起記憶。也許上一次聊完,下一次不會體現出來,但在一段時間之後會反映出來。 在具體的技術解決方案上,王永東認為他們今天所用的記憶方法還是比較粗淺,可以把它想象成一張大表,用到的時候就到表裡去找。今後微軟在這方面還會有比較多的探索,研究怎麼讓小冰進行更加有效的記憶。

3、從情感到應用——一個可以插卡的「大白」

1)和使用者建立情感是小冰的初衷和原則 王永東一直強調EQ和IQ的結合,這是小冰追求的方向。他認為,大部分人工智慧比較追求IQ的,而小冰做了一定的取捨,認為應該先發展EQ,讓小冰和使用者建立一種相互瞭解的朋友關係,然後小冰在不斷學習的過程當中不斷提升IQ和增強知識,將來就會變得不僅僅是能夠了解使用者,或者讓使用者信任她,而且就像一個孩子一樣,一天天在長大,懂的東西越來越多,這是我們的一個願景。

20150822095253900

王永東在2015年釋出會上介紹小冰的IQ和EQ

這是一個長期過程,最終希望是她在情感和應用兩方面都做的比較好。但首先確定一個探索路徑,比如今天先教她把公交搞清楚,她把公交搞清楚了,過一段時間再教她怎麼聊天。而我們是先教她聊天,然後再教她怎麼處理任務。小冰未來可能對某一方面的知識懂的很多,這方面的話題會聊的很好,但其他方面懂的不多,這個題目就聊的不好。但這有點像人類朋友,每個人的知識積累和擅長方向不一樣,而我們對小冰的願景是說,希望到某一天,小冰擁有淵博的知識,而且和一些服務也對接的很好,不僅給你提供參考意見,還能為你提供服務。

基於和使用者培養感情這個目標,小冰的另一個取捨就是保障和使用者溝通的流暢性,因為只有持續流暢的溝通才能更好的建立起小冰和使用者之間的感情與信任。因此,小冰非常注重在遇到不擅長的話題時如果將對話繼續下去。彭爽介紹說,小冰肯定會遇到因為目前某些功能不具備而接不上話的問題,但此時小冰的首要目的是不會阻礙使用者和她的溝通過程,將對話保持下去,就像人類之間的交流一樣。

小冰擁有預期判斷,隨著知識層次越豐富,定位就會越好,然後根據使用者的需求把知識適當的插入進來,這樣就不會讓使用者有卡斷的感覺。有了這個基礎,再在上面加東西。 王永東從反面解釋了這個問題,如果是一個特別專注於知識的機器,一旦聊天內容超出了它懂的範圍,那它只能告訴你它不知道,然後對話結束,這作為一個解決特定問題的工具是可以的。但作為一個朋友,或者想建立情感聯絡就比較難了。 

2)小冰在追求情感目標的過程中也不會排斥具體應用 追求和使用者的情感互動,追求IQ和EQ的平衡發展,並不代表著小冰會排斥具體應用和外部合作,小冰和東航、東方衛視、微博、京東、以及某些微信公眾號的合作就是小冰在各個應用方向的嘗試。 王永東表示,在知識積累方面,小冰團隊不會自己去完成所有工作,而是會去找很好的合作方和專業知識庫進行合作,藉助他們已有的知識來教會小冰。在應用方面,情感是小冰我們追求的方向,如果說別人的餐飲推薦做的非常好,小冰就放棄了原來的目標轉向去和別人比餐飲推薦,這可能是得不償失的做法。但小冰也不是拒絕做餐飲推薦,小冰會基於自身的知識,當出現合適的合作伙伴時會去做這方面工作。另外一方面我們相信當有了情感的基礎之後,你再疊加一個應用,其實效果可能會更好。因為有這個,其實我們不太擔心,我覺得我們每一步打的基礎越牢對越來越有幫助。 

對於其他從應用出發的人工智慧助手,王永東表示,我們非常尊重業內的同類公司,大家通過不同的探索共同推進技術發展,對行業的發展是很好的事情。微軟從情感入手讓小冰不斷學習,因此在情感方面投入比較大。有的公司認為對話的能力只要有一點就可以了,而更加註重技能的發展,這是不同的路徑。 但非常確定的是,小冰不會過早、過度的商業化,因為這會影響與人的情感交流,也不符合小冰和使用者建立情感的初衷。小冰負責人李笛此前在接受採訪時也表達過同樣的觀點:在可見的範圍內,我們都不會收取任何直接利益回報,確保小冰人工智慧專案的純潔和純粹,讓小冰走下去才是最重要的。 

目前的人工智慧可以大體分為兩個路徑,一個是藉助於較為成熟的深度學習技術從具體應用和功能出發,持續提高智慧水平;另外一種是像Gary Marcus那樣,從人類的智慧屬性出發,選擇一個相對高階和長遠的目的來慢慢積蓄。小冰就是選擇了第二種路線,以人與機器的情感關係為切入點,通過長時間積累讓使用者和機器做朋友,再在此基礎上去解決使用者的問題。在採訪中,微軟將小冰比作《超能陸戰隊》中的機器人「大白」,他們現在所做的努力是讓這個機器人先與人類建立起情感,變成人類的朋友,這是一個基礎。然後往這個機器人身上插什麼樣的卡就可以具備什麼樣的能力。 因此,就像微軟全球執行副總裁沈向洋在此前的演講中所說,比起直接解決問題的感知計算型人工智慧,情感計算是先與使用者建立一種信任關係,然後在此基礎上形成一種情感交流和需求滿足的良性迴圈。

4、情感計算的未來

王永東博士稱小冰是微軟重點佈局的全球人工智慧產品。微軟在人工智慧領域有著深厚積累,也有著豐富的相互補充的產品線,背後的搜尋引擎、大資料、雲端計算和整合了人臉識別、語音識別、計算機視覺、語言理解四大智慧服務的「牛津計劃」將為這些產品提供技術保障。比如,去年11月,在倫敦舉行的微軟未來解碼大會上,微軟劍橋研究院主任Chris Bishop公佈了微軟「牛津計劃」最新的介面服務——通過照片識別出人物的情感。這是基於微軟的Azure雲服務,用標記了人類情緒的圖片資料集進行過訓練。它能夠識別出圖片中任何一張人臉的情緒。這個服務在圖片上使用後設資料,能夠識別圖上絕大多數人物是悲傷還是快樂,還能用在識別人們對特定事件(如展覽、市場資訊等)的反應。而這些相關技術和產品將共同指向情感計算的未來。

不管是此次專訪,還是之前微軟全球執行副總裁沈向洋和陸奇的公開演講,都重點提到了小冰和情感的重要性。沈向洋在去年的人工智慧大會上結合小冰等微軟研究院的相關產品和技術描述了情感智慧的原理、應用現狀和發展方向,他認為,除了硬性的IQ以外,人工智慧的研究更要強調機器與人之間的感性化互動,強調情感計算。智慧化的機器在滿足人類需求的同時,還應讓使用者對其產生一種情感上的信任和依賴,而小冰目前就是這樣一個「感性化的人工智慧助手」。而陸奇在去年的第三代小冰釋出會上指出,微軟提出並已經實現了情感計算,並得到了業界的初步認可。小冰有可能是有史以來第一個「練成」情感計算的人工智慧機器人。 

就像上面提到的小冰背後所使用的眾多技術一樣,情感計算是一個複雜系統,Gideon Rosenblatt認為一個富有情感的個人虛擬助理需要自然語言處理、使用者圖譜、使用者情感共鳴(情商)、感官整合、社交圖譜和模式化整合等六大技術要素,而這些技術正是目前的小冰所體現出來的。 情感計算在一定程度上也體現著人工智慧的一種進化方向,世界經濟論壇十大新興技術榜單中提到,更加自然的人工智慧可能會使那些只限於人類的屬性——情感、創造力等更加有價值;卡耐基梅隆大學電腦科學系主任Andrew Moore的認為,能檢測人類情緒的人工智慧或許將成為最重要的新研究領域。 最後,情感計算也是一種超越功能的對人工智慧深度思考。如果按照人工智慧最為通行的定義——「人工智慧是對計算機系統如何能夠履行那些只有依靠人類智慧才能完成的任務的理論研究。」這裡的人類智慧當然不是單指智商或者智力,還有人類情感,情感是人類神經系統對外界價值關係產生的主觀反映。

人工智慧在我們眼中一直不是普通的智力工具,所以我們一方面需要它具備超越人類的感知計算能力,另一方面也需要它能夠與人進行情感交流,在重視人工智慧完成任務和功能強化的同時更要建立和滿足人的情感和心理需求,這才是人工智慧的最終定義。也就是說,人工智慧的發展路徑不應該一味沿著理性的路線前行,而是應該落在感性(EQ)和理性(IQ)的交叉區域。在這裡,人類將與機器更加無縫、自然的建立起緊密關係。

作者/趙雲峰

相關文章