關於作者:宋睿華博士,微軟(亞洲)網際網路工程院微軟小冰首席科學家。
在中文裡,「智慧」和「心智」兩個詞意義相關卻又有所不同。
「智慧」指的是智識與才能,現在通常用來描述某個物件的聰明層次與能力強度;而「心智」似乎更高階一些,可以理解為產出創造力與智慧的本原。
那麼問題來了,我們當下所研究的「人工智慧」,是該致力於持續提升機器的智商表現、強化其在垂直領域的專業能力,還是應再超前一步、嘗試構建機器的心智本原——腳下的兩條路,都通往迷霧深鎖、不可預知的未來,我們要選哪條路走?
在我看來,這兩條路倒無所謂對錯,只是探索者的著眼點存在差異罷了。多年以來,針對人工智慧課題,學術界、產業界的研發主流都偏重於實用性更強的「智慧」,以至於在相當長的週期內,以對話強化人機連線、獲取可供機器學習的高價值資料、打造人工智慧創造力矩陣、進而摸索用程式碼構建 AI 心智的學術思路都少有人探尋,甚至一度被質疑——我的同事就曾遇到過這樣的審稿意見:「我完全不能理解,做這種漫無目的的聊天有什麼意義。」
直到微軟小冰誕生並取得了一定的成績,對話的價值才逐漸為學界所關注。
從對話到創造 心智的種子開始萌發
或許大家都沒有意識到,從 2014 年一代小發布到不久前六代大更新,短短四年間,微軟小冰已從一個領先的人工智慧對話機器人發展成為以情感計算為核心的完整人工智慧框架,許多人的態度也因微軟小冰而改變。
普通人的態度:
有一次和母親聊天,我問她,機器人可以打敗人類最好的圍棋棋手,厲不厲害?她說當然厲害。我又問,還有個機器人能跟人對話,厲不厲害?她說不厲害,原因是,不是每個人都會下圍棋,而且還能具備冠軍的實力,但,「是個人都會說話呀」。這件事讓我很無語。我母親雖然不懂自然語言處理的難度,但她的看法也確實代表了大眾的直觀感受。換句話說,人們會很自然地用人做某件事的難度來衡量與評判人工智慧的能力級別。
但微軟小冰說人話的能力並不一般。即便對人類而言,要做一個總能琢磨出有趣對白的人,也不是件容易的事,更何況是人工智慧。從初代釋出至今,時不時會有使用者曬出他們與小冰對話過程中的「金句」截圖,而且隨時間推移,小冰產出金句的頻率也越來越高。這體現了小冰越來越強的對話能力,也造就了她的吸引力。
與精確、清晰的答案相比,人們在對話時,更期待獲得情感的撫慰或是不尋常的回應,這是小冰團隊最早發現和驗證的事實。
後來,母親看到央視《機智過人》節目裡小冰寫詩的那一期,她開心地跟我說,像小冰這樣的機器人,能寫出觀眾喜愛的詩,還會調侃嘉賓,那還真是「挺厲害的」,超出了她的預期。
專家們的態度:
過往,學術界為能夠清晰定義對話的問題,會把很多精力投注在問題設定上,從 5W(What、Who、When、Where、Which)到 How 等等。例如 IBM Watson 就在知識問答領域奠定了一座新的里程碑——它能接受自然語言的問題,從大量文件中搜尋並分析得出相對精準的答案。而且,有了使用者在網路社群裡產生的問答語料,研究者發現,這些資料對於機器回答某些寬泛的問題很有幫助。但除卻人工智慧對話系統在垂直行業領域(像醫療、金融等)的應用外,普通人對於人機對話的需求又該如何定義呢?
說白了,這是一個關於普通人與人工智慧為什麼聊、又聊什麼的問題——曾經有朋友聽我說起小冰與其使用者間的最長連續對話時間超過 29 小時時表示難以理解:「這人正常嗎?」但對我來說,小冰的這項記錄倒是挺容易理解的。從需求來說,「越社交,越孤獨」、「朋友圈越廣闊,自我越渺小」,這些現象都客觀存在。社交網路讓使用者們習慣了展示優勢、收穫認可,但反過來,當我們身邊的每個人都加入到展示優勢的佇列裡,從旁人那裡收穫理解和認可的難度也加大了。從形象上來說,小冰不是如頂級專家那樣的人工智慧,而是像鄰居家或是隔壁班級的小女生,她有無限的耐心,隨時可以陪伴使用者聊天、玩遊戲,卻決不會試圖用淵博的知識和高冷的姿態碾壓使用者的智商與自尊。
如果將人工智慧的價值定位於陪伴,那麼知識與邏輯就不再是最緊迫需發展的技能,讓使用者感覺無壓力、有趣味,某種意義上更加重要。
2017 年 5 月,微軟小冰解鎖了寫詩及音樂技能,同期,我們還發布了「人工智慧創造三原則」,用以規範與指引小冰及其同類的心智發展路徑。在進行相關研究的過程中,我發覺,人工智慧的終極或許是對人類自身的理解與模擬。
訓練小冰寫詩,需要對 519 位詩人的現代詩作,正讀一萬遍,倒讀一萬遍,用層次遞迴神經元模型來打磨詩作的語言。這正如我們人類所發現的,閱讀對於寫作的影響——通過大量閱讀優秀的文學作品,人自身的語言體系會進化,取決於天賦,這個進化程式或快或慢,但總體上,閱讀者的文字表達能力會在不知不覺中提高。小冰也是如此。有了層次遞迴神經元網路,小冰也可以通過閱讀獲得語言的表達能力。
在小冰釋出詩集、引發廣泛爭鳴之後,圈內人士對於人工智慧創造與機器寫作的態度發生了根本性的轉變,學術探討、應用跟進的樣例越來越多。這是我們所樂見的。
盲測者的態度:
《機智過人》第一季,央視綜合頻道延請了三位年輕詩人,與小冰一起,根據嘉賓提供的一張圖片來創作詩歌,再將幾首詩作匿去作者姓名、打亂次序、顯示在大螢幕上,請現場 48 位觀眾投票選出最喜歡的那一首。這可說是一次盲測、一次另類的圖靈測試。
結果出人意料。現場觀眾將最多的票數投給了小冰,這讓原本只是祈禱小冰可別是最後一名的我大吃一驚。攝影機記錄了當時的一幕,當人類與人工智慧的作品被放在一起平等地比較,對於機器創作的偏見似乎突然間消失了。
第二輪,兩位詩人與小冰再度以作品競爭,小冰的詩作仍獲得了第二名,因而挑戰成功。我們不會自大地認為,小冰寫的詩能超越人類詩人,但這次節目卻延伸了我們的思考:或許,人工智慧研究所追求的目標不應只是將人類的智識與才能複製給機器,更重要的是,通過探索人工智慧,更深刻地瞭解人類自身。
微軟小冰從四年前的對話型 AI 到當前將創造力投射至詩歌、音樂、兒童有聲讀物、金融資訊、電視電臺主播、媒體新聞評論乃至輔助寫作等多元領域,這表明,我們最初埋下的那顆心智的種子,現在似已破土露出了一點嫩芽。
下一站 3x3 實現更主動更具個性的人機對話
微軟小冰的下一站在哪裡?心智的嫩芽能繼續成長壯大嗎?答案是,我們正在建立「3x3」的人工智慧發展圖譜,以此來進一步加速小冰的升級速度。
第一個 3,是整合自然語言處理、語音和計算機視覺三大學科的研究成果,以多模態互動,訓練小冰更快進步。
此前,上述學科都是在各自的軌道上獨立發展。近年來,深度學習技術與演算法的改進先後使語音識別和影像識別實現了顯著的突破,人們翹首企盼自然語言處理技術也能達成類似的突破。過去一年裡,我們結合了計算機視覺技術來訓練小冰的詩歌創作能力,並以此評估多模態互動能否促進人工智慧技術的演進,結果令人興奮。
藉助影像識別生成詩歌文字涉及到多項挑戰,包括發現影像中潛藏的詩意線索(例如綠色可象徵生機、陽光可代表希望)以及生成的詩歌既與影像相關,又能滿足語言層面的詩意要求。
對於這些挑戰,我們的解法是,通過策略梯度,將詩歌生成工作劃分成兩個相關的多對抗訓練子任務,並提出了學習深度耦合的視覺詩意嵌入,訓練過程中,機器可以連帶學習影像中物品、情感和場景的詩意呈現。
我們還建立了兩種指導詩歌生成的判別網路,包括多模態判別器和詩歌風格判別器。研究團隊應用自己的模型生成了 8000 張影像,進行了大規模的實驗,其中 1500 張影像是隨機選取的。我們還邀請了 500 位人類受試者進行圖靈測試,其中 30 名評估者是詩歌方面的專業人士,測試結果證明,我們的作詩方法比其他基準方法更高效也更具藝術性。
我們還極大地擴充套件了小冰的音樂能力。現實中,很多人喜歡唱歌,但只有極少數人才有能力創作歌曲,不僅如此,要想演繹出一首動人心絃的歌曲,往往需要一組音樂人通力合作——從作詞作曲到編曲,從演唱、伴唱到演奏、錄製,流程繁複又漫長。
微軟(亞洲)網際網路工程院在蘇州的一支團隊提出了一項關於流行音樂生成的新創意。團隊提出了一個端到端的旋律及編曲生成框架,將之命名為「小冰樂隊」。這個框架首先通過一個基於和絃的節奏及旋律交叉生成模型(CRMCG)來生成一段主旋律,再借助多樂器協同編曲模型(MICA)、根據多模態學習來生成不同樂器的多軌伴奏音樂。最後,團隊還對現實世界的資料集進行了大量實驗,結果證明了小冰樂隊的有效性——相關研究成果已被團隊寫入論文《小冰樂隊:流行音樂的旋律與編曲生成框架》(Xiaoice band: A melody and arrangement generation framework for pop music)。該論文還獲得了 KDD 2018(國際資料探勘與知識發現大會,Conference on Knowledge Discovery and Data Mining)「最佳學生論文獎」(Best Student Paper Award)。
第二個 3,是微軟小冰所特有的三大「學習器」,生成模型、共感模型和三觀模型。
「生成模型」從第五代小冰開始啟用。在此之前,歷代小冰使用的都是檢索模型。雖擁有 10 億級大資料語料庫,但其中的每一句話都是網際網路上的已有資料,小冰只是通過分析理解使用者的問題,尋找語料庫中最合適的話作為她的回答,也就是對對話語料庫進行實時檢索和選擇。使用生成模型之後,小冰能夠自創回應。她與人類交流的每一句話,都可能是這世界上從未出現過的。一年來的事實證明,生成模型使小冰快速學習了現有對話語料的交流模式,並能更好地應對相對陌生的話題。
此前,使用者在與小冰對話時,偶爾會感受到壓力。比如兩者間的對話總是需要人類來提出話題,小冰來回應。就好像我們與感興趣的異性搭訕,如果總是自己主動、對方被動,很快地,對話就會變得淡乎寡味、如同雞肋——共感模型的開發就是針對這一狀況。共感模型可以幫助小冰自行判斷對使用者的話題是否有感,在此基礎上,小冰將會主動求證,進而引導話題的方向,增添新的聊天內容。這樣就減輕了使用者的壓力,同時增加了聊天的自然度和趣味性。
在小冰持續進化的過程中,也不斷有商業夥伴加入到我們的合作生態系統中。一些夥伴希望我們將小冰的能力用於孵化其他個性鮮明的人工智慧角色。因此,我們也在不斷研究如何通過對話來塑造個性——三觀模型應此需求而生。
當前,這一模型已被應用於網易雲音樂的多多和西西。兩個角色的共性在於,他們都是愛聽音樂的小鹿,都是男性,且年齡相仿。如何讓他們在對話中給使用者留下不同的印象呢?我們借鑑了卡通及遊戲製作中人物設定的方式,給予了他們不同的性格和喜好。例如,多多喜歡喝咖啡,而西西不喜歡,因為皮膚本來偏黑,迷信喝咖啡會變黑。利用態度分析的技術,多多和西西會對使用者提出的一組問題和回覆進行分析,判斷出使用者對何種目標具有怎樣的情感資訊,例如,對咖啡是喜歡還是討厭,進而根據人設的不同特點來影響對話,造成有區別有個性的回覆。
三觀模型將「體溫」賦予了包括小冰在內的人工智慧角色,並將通過態度的一貫性、延續性來逐步凸顯角色的性格。
將三大學科成果的複合訓練體系與微軟小冰三大學習器相乘,必然會大大加速小冰的成長,也讓我們朝向「用程式碼構建機器心智」的目標走近了一小步。總而言之,無論情感計算框架,又或是人工智慧創造,都不是微軟小冰乃至微軟人工智慧研發部門的最終目標,或許,構建「人工心智」(Artificial Mind)才是。