前言
作為人工智慧時代的入口級產品,近年來,聊天機器人受到了大量的關注,也得到了快速的發展。但隨著2018年Facebook關閉其虛擬助手M,亞馬遜Echo也被爆出侵犯使用者隱私的問題,再加上聊天機器人實際使用效果遠低於大眾預期,整個行業也逐步走向低迷。聊天機器人的困境到底在哪兒?在如今的技術條件和市場環境下,聊天機器人廠家如何進行突圍?使用新技術,開闢新賽道,是否能解決問題?本文將詳細梳理聊天機器人的現狀及技術,指出其存在的問題,並討論了未來可能的發展方向。本文共12965字。
困境
一、聊天機器人太傻了
我是一個聊天機器人的從業者,辦公桌上和家裡有各式各樣的聊天機器人產品。和大多數使用者的體驗一樣,對於一個剛剛到手的產品,最開始的感覺是新鮮興奮,但當體驗完功能之後,剩下的就是失望和無奈。然後,很可能就將其放在角落裡再也不會開啟,或者僅僅作為一個音響,來播放音樂。
這就跟聊天機器人廠商的初衷背道而馳了。一邊是廠商希望使用者長久留存在產品上,一邊是使用者對產品的日均使用時間快速下降。那麼為什麼會出現這種情況?為什麼大多數使用者對於聊天機器人的滿意度很低?
從人類的天性中,可以一窺端倪。天主教教義對人類的惡性分為七種。舉例來說,人類是懶惰的,總是希望以最少的代價獲取最大的利益。而由於技術的限制,和聊天機器人的對話經常會使得溝通成本增加。比如,語音識別率在實際場景中不可能達到100%,也就造成了在嘈雜環境中喚醒聊天機器人,許多時候是一個很不舒服的體驗。相比而言,人類的耳朵對於“雞尾酒會效應”卻遊刃有餘。又比如,想讓聊天機器人完成一項功能(訂機票、查天氣或播放一首特定風格的音樂),有時候必須通過非常明確的語言,進行多次溝通。相比而言,古代皇帝想做一件事情的時候,甚至不需要用到語言,只需一個眼神,太監就馬上能意會到皇帝的目的。這裡提到的還只是純互動部分的問題,如果再出現網路延遲、敏感詞和敏感話題、甚至還有一些稀奇古怪的bug,讓聊天機器人答非所問,就會讓人更加不滿。
作為從業人員,我在使用這些產品的時候還是很寬容的,由於知道聊天機器人的軟肋,就會盡可能的跟聊天機器人心平氣和的對話。一次不行,我再試一次,這個指令不管用,我再換一種問法。但對於普通使用者,可不會買賬。我們看下如圖1這個使用者,冷不丁的半夜被聊天機器人的怪笑嚇個半死。英文翻譯過來的意思就是“躺在床上正要睡著了,突然某某某音響中的虛擬助手向我發出很大聲讓人毛骨悚然的笑聲...今晚我要被殺了”。這個時候,如果是我的話,除了把它從樓上扔下去摔個粉碎之外,好像也沒有什麼平復心情的辦法了。
再舉一個例子,在分析使用者使用資料的時候可以發現,排名靠前的功能主要有閒聊、問天氣、播放音樂等。剛接觸這個行業的時候,我曾認為,既然是被高頻觸發的功能,就證明這些是使用者的“剛需”。只要對剛需功能做好優化,使用者留存度和滿意度自然會大幅提升。後來才慢慢體會到,有些時候,並不是使用者真的最喜歡問天氣和播放音樂,而是其他的功能體驗感實在是差強人意,比較成熟的也就剩下天氣和音樂了。這就牽扯到“七宗罪”中的又一個“罪”:貪婪。使用者總是想得到更多,所以在剛拿到聊天機器人產品的時候,自然而然的會不斷試探其邊界,所以互動的內容也會天馬行空,五花八門。但如果使用者得到的都是負面反饋,隨著期望的降低,問答範圍也會縮小到一些成熟和穩定的功能上。就好像是新婚之夜,滿懷期待掀開新娘的面紗,卻發現等待著的是如花。
二、為什麼要做聊天機器人
既然聊天機器人效果都做的不好,那為什麼還有大量的公司一窩蜂湧入到這個市場?頭部廠商不惜重金做補貼,甚至能做到人民幣兩位數的售價。尤其像兒童教育聊天機器人,雖然已成為血海市場,仍然還有很多公司前赴後繼進入到這個賽道。
這還要從我們所處的時代說起。我是80後,很幸運經歷了近40年技術爆發的4個時代,分別是PC時代、網際網路時代、移動網際網路時代和人工智慧時代。而我們現在所處的人工智慧時代,也正是AI技術發展歷史上的第三次浪潮。
每一個時代都有其對應的入口級產品。在80到90年代,個人電腦是最主要的入口,其特點是“運算力改變生活”,個人電腦和Windows作業系統,成就了IBM和微軟兩個硬體和軟體的巨頭。我至今還記得當時用一臺486電腦和14寸的球面顯示器,玩仙劍奇俠傳的場景。而在隨後到來的網際網路時代,核心特點是“連線顛覆一切”,人們可以通過網路隨時隨地進行資訊搜尋和資訊互動,同時也造就了谷歌這樣一個偉大的公司。第三個時代是移動網際網路時代,移動技術帶來了兩大變革,一是資料利用效率的提升,導致服務發生了變化,人們可以隨時隨地享受例如叫車、點餐等即時服務,二是互動方式的改變,智慧手機(主要是觸屏手機)成為了入口級裝置,這個時代中最具有代表性的公司就是蘋果,iPhone也成為了顛覆性的產品。
當人們跨越到人工智慧時代,微軟又提出對話即平臺(Conversation As A Platform)的理念,並稱之為一種互動方式的“迴歸”。之所以稱之為“迴歸”,是因為從遠古時代起,語言是人類最自然的互動方式。人們通過語言來打招呼、八卦、協同狩獵,也就拉近了群體中人與人之間的距離。以色列歷史學家尤瓦爾·赫拉利的《人類簡史》甚至把“八卦”提到了非常重要的位置,是人與動物、人與其他史前人類的關鍵區別。以前由於技術的限制,人們不得不通過鍵盤和滑鼠與機器進行“對話”,而現在我們具備了“對話即平臺”的條件,可以很好的實現這種最自然的互動方式,完成各種服務。因此,在人工智慧時代,語音互動產品也自然而然成為了入口級產品,而聊天機器人就是一個最典型的體現。
因此,為了搶佔這一“入口”,無論是技術巨頭還是創業大軍,都加入到了本就不寬的賽道中來,就如“千樹萬樹梨花開”一樣,出現了大量的聊天機器人產品。同時在B端和G端市場,為了顯得自己的高大上,很多大企業和政府機構也都紛紛推出自己的智慧問答系統。然而,好奇害死貓,“入口”害死人。現在的聊天機器人已經變成了血海市場,哀鴻遍野。技術的低門檻,產品的同質化,再加上頭部廠商的補貼策略,大公司長期虧損,中小型公司的生存更為艱難。尤其是18年開始的“資本寒冬”,很多的聊天機器人公司要麼關門,要麼轉型,這個我們暫時按下不表,後面還有更多討論。
三、聊天機器人是什麼
聊天機器人從字面上來講,就是會聊天的機器人。但“會聊天”涵蓋的範圍太廣了。人們總是希望給事物打上標籤,給出定義。因此,對於聊天機器人而言,我們給出幾類角度不同的分類。
首先,從用途和使用場景上看,聊天機器人可以簡單分為功能類和娛樂類。所謂功能類,一般是為了解決某個特定的問題,比如說個人助理、音樂播放、兒童故事、網上購物等。而娛樂類,大多是為了陪伴使用者閒聊。微軟小娜(Cortana)和微軟小冰,分別是功能類和娛樂類的典型代表。
其次,從生態系統上看,聊天機器人可以分為產品、框架和平臺三類。我們在市場上所看到的,以及日常所使用的都稱之為“產品”,包括純軟體形態和軟硬體結合的品類,例如微軟小冰,亞馬遜Echo、iPhone上的Siri,公子小白、小米音響等。除此之外,為了加速實際產品的研發,很多公司專門對外提供聊天機器人框架(Framework),以SDK或者SAAS服務的形態,供需求方來構建特定場景和領域的聊天機器人。典型代表包括支援Echo的Amazon Alexa,微軟的Luis with Bot等。另外,一些純軟體形態的聊天機器人,需要承載其應用的“平臺”(Platform),比如說微信、Facebook等。這樣就構成了整個聊天機器人的生態體系。
最後,從互動方式上看,聊天機器人可以分為主動互動型和被動互動型兩種,其中,被動互動型又包括閒聊型、任務型和問答型三類。我們接觸到的絕大多數產品屬於被動互動,即由使用者發起對話,機器理解對話並作出相應的回應。主動互動可以更好的體現機器人和使用者之間的對等關係,即由機器人主動發起,通過共享或推薦使用者感興趣的熱點資訊,和人類進行互動,但目前更多的是作為對傳統互動方式的一種補充,並未得到大規模廣泛應用。從被動互動的三種型別來看,閒聊型主要是進行客觀話題討論,或者使用者對聊天機器人進行一些情感表達,微軟小冰就具有很強的閒聊屬性。而任務型是為了滿足一個特定的任務或者目標,比如說利用Siri可以設定鬧鐘、預定餐館等。對於問答型聊天機器人,需要解決使用者對於事實型(Factoid)問答(如what、which、who、where和when)問題的回覆,以及非事實型問答(如how和why)的回覆。
使用者在和聊天機器人互動的過程中,會夾雜各式各樣的意圖。舉一個簡單的例子,以下是一段對話:
```
Q: 你知道阿楠的電話號碼麼?
A: 知道
Q: 那你能告訴我他的號碼麼?
A: 可以
```
我們可以看到,這其實是一段無意義的廢話。使用者的意圖是想要阿楠的電話號碼(任務型對話),而聊天機器人的回覆完全屬於閒聊型對話。
四、理想和現實
從七十年前的原子彈,到五十年前的粒子對撞機,再到二十年前的基因編輯技術,技術的在近百年來有了突飛猛進的發展。而在人工智慧如此火熱的今天,為什麼聊天機器人就做不好?這就需要先簡單聊一下人工智慧技術的現狀。
文因互聯的鮑捷老師曾給出一個人工智慧三次熱潮的曲線圖(圖2),人工智慧至今經歷了三次大的熱潮。而這一輪人工智慧熱潮,是伴隨著大資料和深度學習的興起。深度學習技術最早期的研究起始於上世紀六十年代的感知器,而直到最近的十年,隨著軟體和硬體的成熟,深度學習才取得了爆發式的進步,在多個領域例如影像識別,語音識別等都突破了人類最好的成績。火熱的人工智慧帶來了很多機會,也帶來了很多問題。資本的大量湧入,使得市場上湧現了一大批AI初創公司,同時媒體的大肆宣揚,也使得大眾的胃口和期望被吊的越來越高。普通的技術成果已無法吸引讀者的關注,很多媒體就開始用誇張的標題和內容來吸引眼球,比如說“人類要被機器人取代”“重磅!機器開始威脅人類”等等。更不用說像Sophia這種偽AI的出現,使得人們覺得Sophia就是人工智慧應該有的樣子。而且,就好比AlphaGo並不能給人類端茶倒水一樣,在一個特定領域的優秀表現,並不能代表AI技術無所不能。又例如,谷歌在2018年開發者大會上演示了一個預約理髮店的聊天機器人,人們在大呼驚豔的同時,自然而然的覺得人工智慧技術應該可以上天入地,做到任何事情,甚至取代人類。
這是技術從業者的悲劇。羅馬從來都不是一天能夠建成的,技術的突破也必然會經歷一定時間的積累。很多時候,本來應該穩步推進的技術,卻在落地之時,面臨投資者和使用者被吊的足夠高的胃口,不得不去做一些虛假宣傳。比如說:“我的產品可以完美解決雞尾酒會效應”“訂咖啡、購物、訂票,我們的產品都可以幫你做到”等等。然後,就沒有然後了。
因此,人工智慧除了經典的三大主義(符號主義、連線主義、行為主義)之外,現在又多了第四個分類,叫做媒體主義。
回到深度學習技術的發展上來,AlphaGO都能打敗人類最頂尖的棋手,擁有15億引數的GPT-2模型已經可以做到文字續寫,為什麼深度學習卻沒有真正解決聊天機器人的自然互動?且不說訓練成本的問題,目前技術能夠做到比較好的基本上都是單輪互動(也就是一問一答)、,在多輪互動上,除了在某些特定場景可以表現較好(如Google開發者大會上的理髮店預約場景),在開放式聊天中往往會慘不忍睹(這一點我們下一節會詳細討論)。而單輪互動,在技術上最簡單的解決方案,是寫一大堆的句子,並使用基本的檢索方法和規則來選取已經寫好的答案來進行回覆,甚至可以完全不用深度學習方法。所以才會出現僅通過堆語料就能創造出一個表現尚佳的聊天機器人。
作為從業者,從技術的角度上來講,聊天機器人的表現其實已經非常不錯了。甚至在某一些特定場景下足以以假亂真了。我們經常會被一些廣告營銷電話騷擾,以前還都是真人在和我們溝通,而現在出現了大量的聊天機器人,他們不知疲倦,可以24小時*7天不間斷工作,通過電話語音,甚至很多情況下我們都無法判斷對方是不是機器人。這是因為,在特定場景下,對話可以跳轉的狀態一般都是有限的,可能產生的話題分支,比起圍棋的可能性要少很多,因此,即便是窮舉所有的可能性,也不是不可做到的事情。如果提前設定好對話策略,加上語音合成技術,完全可以以假亂真。
我們都知道,圖靈測試由英國數學家阿蘭·圖靈於1950年發明,是指測試者在與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。進行多次測試後,如果有超過30%的測試者不能確定出被測試者是人還是機器,那麼這臺機器就通過了測試,並被認為具有人類智慧。2014年6月,一個偽裝成烏克蘭13歲男孩的機器人尤金·古特曼,順利的通過了圖靈測試。其實,通過這個測試也用了一些小技巧,比如說“13歲男孩”,可以裝作自己的思考能力不夠成熟,同時,來自“烏克蘭”可以有效掩蓋其英文水平的不足。但嚴格意義上來說,通過圖靈測試並不能代表機器已經具有自然對話的能力。曾看到過一篇關於圖靈生平的文章,提到圖靈在1952年被判犯有同性戀行為,並被迫接受化學閹割,兩年後圖靈自殺身亡。而圖靈測試,其實就是反映了在上世紀50年代的英國,每一位同性戀男性必須通過的日常測試:你是否能偽裝成一個異性戀者?根據圖靈的看法,未來的計算機就像當時的同性戀者,計算機有沒有意識並不重要,重要的是人類會怎麼想。
即便是圖靈測試,也可以看做是一個特定的“閉域”,在這個閉域中,聊天的狀態是預先可以設計的,有很多的策略可以讓對話在這個特定的閉域順暢的進行下去。而很多聊天機器人廠商給自己挖的坑,是要做“開域”(也就是通用域)的聊天。在現有的技術條件下,這就相當於給自己的產品判了死刑。因為做通用域聊天,就等同於想要模擬人類真實的對話,這在目前是不可能完成的任務。具體緣由我們在下一節詳細闡述。
五、人是如何聊天的
在人類的聊天中,一句話所包含的文字,所反應的內容僅僅是冰山一角。比如說“今天天氣不錯”,在早晨擁擠的電梯中和同事說,在秋遊的過程中和驢友說,走在大街上的男女朋友之間說,在傾盆大雨中對同伴說,很可能代表完全不同的意思。在人類對話中需要考慮到的因素包括:說話者和聽者的靜態世界觀、動態情緒、兩者的關係,以及上下文和所處環境等,如圖3。
圖3. 人類聊天中的要素
靜態世界觀:人類在成長過程中會建立起自己的世界觀,一般跟跟經歷和記憶有關。比如說一個素食主義者可能會非常厭惡談及紅燒肉的話題,又比如提及粉筆劃玻璃,會讓一部分人很不舒服,但對另一部分人卻沒任何影響。同時,對話的過程中也會觸發一些相關聯想,比如提到情人節,會想到玫瑰花和巧克力,提到下雨天就會想到雨傘等。魯迅在《而已集·小雜感》也曾寫道“一見到短袖子,立刻想到白臂膊,立刻想到全裸體,(略),中國人的想像惟在這一層能夠如此飛躍”。
動態情緒:表現在互動過程中的表情、動作、語氣等。因為人類的互動過程通常需要接收多方面資訊源,在不同語氣、不同表情,所表達的含義有可能完全不同。比如說“我恨你”,在戀人間輕柔的對話中很可能代表“我真的很喜歡你”。
說話者和聽者的關係:對話雙方是敵人、家人、朋友還是戀人,話語中所表達的意思就會有所區別。就比如剛剛的例子“今天天氣不錯”,在分手多年的戀人見面時說,很可能就代表“你現在過得好麼”。
上下文:相同的詞語和句子,在不同的上下文中也會有不同的含義。“我洗頭去了”用於微信和QQ聊天中,很可能就代表“我不想聊了,再見”的意思。
所處環境:在不同場景下,相同話語會觸發不同的反饋。如果在廁所和人打招呼用“吃過了麼”就會顯得非常尷尬了。
而且,以上這些都不是獨立因素,整合起來,才能真正反映一句話或者一個詞所蘊含的意思。這就是人類語言的奇妙之處。同時,人類在互動過程中,並不是等對方說完一句話才進行資訊處理,而是隨著說出的每一個字,不斷的進行腦補,在對方說完之前就很可能瞭解到其所有的資訊。再進一步,人類有很強的糾錯功能,在進行多輪互動的時候,能夠根據對方的反饋,修正自己的理解,達到雙方的資訊同步。在回過頭看開放域的聊天機器人,寄希望於從一句話的文字理解其含義,這本身就是很不靠譜的一件事情。
目前市場上大部分的聊天機器人,還僅是單通道的互動(語音或文字),離人類多模態互動的能力還相差甚遠。哪怕僅僅是語音識別,在不同的噪音條件下也會產生不同的錯誤率,對於文字的理解就更加雪上加霜了。
六、技術及發展進度
在這一節,我們討論下現有聊天機器人所涉及的技術,但不會牽扯到技術細節。
機器學習和深度學習:機器學習技術屬於基礎技術,比如說分類演算法可以用於做使用者的意圖分類和情感分類;語言模型可以用於篩選語音識別後的句子是否通順;聚類演算法可以用於做使用者的行為習慣分析等等。隨著資料量越來越多,可以發揮深度學習的優勢,更進一步提升聊天機器人的基礎技術能力。
自然語言處理:是聊天機器人語義互動層面的核心技術。比如說檢索技術可以選取語料庫中最合適的回覆,命名實體識別可以找出句子中的關鍵資訊,如“播放李榮浩的李白”中,李白是指一首歌名。主體識別可以用於判斷句子的主語,例如“我給你唱歌”和“給我唱歌”的主語是不同的。此外,還有句型判斷、實體連結、詞性標註、依存分析等各項技術,綜合運用於對使用者句子的解析。
資料庫技術:通過資料庫技術,我們可以在預先儲存好的大規模語料庫中,快速檢索相近的句子,也可以對海量的使用者互動資料進行儲存並進一步分析。
知識圖譜技術:是聊天機器人實現認知互動的關鍵技術之一,可以幫助聊天機器人進行記憶、聯想和推理。關於知識圖譜,我們放到本文的下半部分專門討論。
聲學技術:包括語音識別、語音合成、聲紋遷移、聲紋識別以及歌聲合成等,為聊天機器人提供了更加豐富的表現力。聲學技術也牽扯到和晶片、硬體(例如麥克風陣列)的配合。
計算機視覺技術:通過計算機視覺技術,可以進行人臉識別、情緒識別,並可以進一步配合語音、語義技術對使用者語句進行深度分析。
其他技術:很多聊天機器人產品具備硬體形態,包括虛擬形象,因此也需要晶片技術、硬體、全息技術、美術和設計的支援。
聊天機器人一定是一個技術整合的產物,在一個有很多序列模組的系統中,有個很重要的問題是錯誤傳遞。比如說有5個序列模組,每個模組的效能都是95%,最終的結果卻只有77%。所以,在設計一個聊天機器人架構的時候也需要儘可能避免模組的序列化。同時,對於多輪互動架構,也需要有更加成熟的設計。
Gartner給出的最新技術成熟度的圖,也反映了不同技術的發展現狀。網上流傳的一句話說到,當某個領域的代表性人物獲得了圖靈獎,也就代表了這個領域輝煌時代的結束。2019年3月27日,ACM宣佈,深度學習的三位創造者Yoshua Bengio, Yann LeCun,以及Geoffrey Hinton共同獲得了2019年的圖靈獎。在曲線中,我們也看到深度學習處於曲線的最高峰,並且即將處於下降的趨勢,也在一方面印證了隨著大資料紅利的消失,以深度學習為代表的感知智慧也觸碰到了天花板。
破局
一、產業現狀
隨著人工智慧的第三次浪潮,湧現了一大批聊天機器人公司,其中有平臺型公司,也有產品型公司。從業務角度上來看,主要分為三類:
2C公司:主要產出直接面向使用者的產品,例如公子小白、小米音響、天貓精靈、微軟小冰等;有一些公司還做開放性框架,例如海知智慧的如意、百度的UNIT等。當然,還有一些公司專門針對聊天機器人推出技能包業務,比如說故事技能、冷笑話技能、訂票技能、大冒險遊戲技能等。
2B公司:主要做各種場景的落地,比如說金融領域的智慧監管系統、醫療領域的醫療問答助手和診斷助手、銀行櫃檯的客服機器人、淘寶店家的智慧客服等。有些時候,場景落地也是在跟風,例如各大銀行的智慧客服,有一個感覺是別人做了,我就一定要做,這樣才顯得在AI上的先進性。但實際效果,大家在體驗之後也會有所判斷。
2G公司:主要面向政府做政務類的知識庫構建和問答業務。隨著人工智慧被寫入政府工作報告,各級政府對於AI的落地應用都有比較高的需求。比如說政府服務大廳的引導型聊天機器人、一站式辦事機器人;政府部門的智慧搜尋引擎和問答系統等。
在C端市場,產品是需要挑剔的使用者買單的。正如本文上半部分所說,在目前的技術條件下,聊天機器人的使用感受遠未達到使用者的期望值,因此,很多2C公司在早期融資消耗完畢之後,產品也未得到使用者的認可,從而不得不考慮業務的轉型,走向2B和2G的賽道。但很清楚的一點是,轉型之後,並不一定是技術好的公司就能接到單子,能否拿到專案,其中的因素也請各位自己體會。
另外,有一個很重要的誤區在於高估了技術的作用。誠然,有一些非常優秀的學者,或者大公司出來的技術高管,利用自己的實力和擁有的核心演算法,成功的進行了融資和快速發展,比如說第四正規化、三角獸、竹間智慧等公司。但大多數宣稱自己擁有某一項壟斷性技術的公司,都沒有走到這一步。例如我前年曾經關注過的某創業團隊,宣稱自己的NLU技術世界領先,包括分詞、詞性標註、依存、命名實體識別等,在其官網上也很自信的提供NLU平臺供使用者試用,想要打造一個開放的聊天機器人平臺。但現在再去看其發展,已經開始轉向做B端的垂直場景業務了。另外還有一家公司,想用更深入的邏輯仿生技術打造機器人意識,然而其核心團隊人員已經開始大量流失。
在目前的聊天機器人賽道上,很多成功的公司所使用的技術都不是自研發的,國內很知名的一家代工廠商,通過整合開放的API和SDK,也能夠打造一款低價的兒童聊天機器人,並做了很多OEM的業務。而且隨著Google、Facebook等巨頭的技術不斷開源,技術的門檻也越來越低,就算是擁有一個世界級領先的單點技術,也很有可能不會比用規則匹配和大規模語料庫拼起來的產品效果更好。
當然,技術領先,在另一方面,也可以用於提升公司的形象,做更好的PR,從而獲取更多的融資,吸引更優秀的人才。達到一個正迴圈之後,可以用足夠多的資源將產品打造的更為優秀。
大家常說人工智慧的三大要素,包括資料、演算法和算力。而在聊天機器人的技術體系下,最關鍵的三個因素應該是人工、資料和演算法。而在現階段,人工是大於資料,更大於演算法的。工程化才是一個產品成功的關鍵。
二、知識圖譜能解決問題麼
近兩年來,隨著AI熱度的降低,無論是投資者還是從業者,都開始關注另一項技術-知識圖譜。知識圖譜技術也是一個融合型技術,包括資料庫、自然語言處理、知識表示、機器學習等等。其最近的火爆程度,可以從國內知識圖譜的旗艦會議(CCKS)的參會人數一窺端倪。CCKS全稱是全國知識圖譜與語義計算大會(China Conference on Knowledge Graph and Semantic Computing)。CCKS2016成立之初只有500名參會者,這個資料到了2017年是600人,2018年是800人,而2019年杭州的會議,預計參會者將突破1000人。
作為從感知智慧到認知智慧跨越的重要基石之一,知識圖譜被寄予了厚望。張鈸院士也提到,“沒有知識的AI不是真正的AI”。拿最新的GPT-2演算法來看,即使其文章續寫能力讓人讚歎,也只是再次證明了足夠大的神經網路配合足夠多的訓練資料,就能夠產生強大的記憶能力。但邏輯和推理能力,仍然是無法從記憶能力中自然而然的出現的。學界和企業界都寄希望於知識圖譜解決知識互連和推理的問題。那麼什麼是知識圖譜?簡單來說,就是把知識用圖的形式組織起來。可能這樣說還不夠明白,我們舉例子分別說下什麼是知識,什麼是圖譜。
所謂知識,是資訊的抽象,一個很著名的DIKW體系,由Rowley在2007年提出,如圖5所示。從資料到資訊到知識再到智慧,是一個不斷凝練的過程。
舉一個簡單的例子來說,226.1釐米,229釐米,都是客觀存在的孤立的資料。此時,資料不具有任何的意義,僅表達一個事實存在。而“姚明臂展226.1釐米”, “姚明身高229釐米”,是事實型的陳述,屬於資訊的範疇。對於知識而言,是在更高層面上的一種抽象和歸納,把姚明的身高、臂展,及姚明的其他屬性整合起來,就得到了對於姚明的一個認知,也可以進一步瞭解姚明的身高是比普通人更高的。最後的智慧層面,Zeleny提到的智慧是指知道為什麼(Know-why)[1],本文不對此進行深入論述。圖譜的英文是graph,直譯過來就是“圖”的意思。在圖論(數學的一個研究分支)中,圖(graph)表示一些事物(objects)與另一些事物之間相互連線的結構。一張圖通常由一些結點(vertices或nodes)和連線這些結點的邊(edge)組成。Sylvester在1878年首次提出了“圖”這一名詞[2]。如果我們把姚明相關的“知識”用“圖譜”構建起來,就是圖6所體現的內容。
在聊天機器人中使用知識圖譜,我們的期望是能夠解決很多複雜的推理問題,包括常識推理問題。比如說“雞蛋放到籃子裡,是雞蛋大還是籃子大”,“ 蘇大強的大兒子是誰”等等。從而使得聊天機器人的對話更加具有“智慧”,不僅能記憶,還能推理、聯想和推薦,從感知層面真正跨越到認知層面。
願望是美好的,但真正將知識圖譜落地卻鮮見成功案例。考慮到成本問題,知識圖譜問答在聊天機器人中的應用還不夠廣泛。況且,一些需求方對知識圖譜還存在不少誤區。很多企業和政府機構在談專案需求的時候,一上來就說,“我想用知識圖譜技術,你們能不能把現在的知識庫變成知識圖譜?實現大資料的連結?”“你們做的問答是不是基於知識圖譜的問答?”等等,其實,知識圖譜問答能不能應用,要綜合考量多方面因素,就拿知識的表示和儲存來說,選用不同的資料庫,需要用到不同的知識表示。RDF(資料的一種三元組表示形式)的資料表示可以選用Jena資料庫,而圖表示可以選用Neo4j圖資料庫。對不同來源的資料還需要進行大量的資料清洗和結構化,甚至還牽扯到紙質文件(例如醫院的文字病歷)的手工錄入。結合業務來看,很多時候傳統關係型資料庫就能解決的問題,完全沒必要用到大規模圖資料庫,否則很容易導致整個專案的成本高、效率低的問題。
Heiko Paulheim在其文章《How much is a Triple? Estimating the Cost of Knowledge Graph Creation》中,給出了幾個典型的知識圖譜的構建成本。其中,上世紀80年代開始的也是最早的知識圖譜專案CYC,平均構建一條陳述句和斷言的成本是5.71美元,而隨著自然語言處理和機器學習技術的進步,DBpedia構建每一條的成本降低到了1.85美分。即便如此,在真正工程化落地的時候,牽扯到多源資料的清洗整合,一個知識圖譜專案的成本還是居高不下。
三、垂直領域的戰略收縮
在人工智慧投資火爆的前幾年,我們經常會看到估值十億到幾十億的聊天機器人(或智慧問答系統)公司。就像渾水沉澱後能看見底下的泥沙,隨著資本的逐漸冷靜,很多公司也進入了艱難的寒冬期。這沒什麼不好,真正優秀的公司,無論是技術和商業模式,都能夠經得起考驗。
聊天機器人公司,在戰略收縮的時候,首先要做的是看清自己公司的核心競爭力。最近看了一本書叫做《失去的勝利》,裡面提到了德國名將曼施坦因對二戰初期波蘭戰役的回顧和評論。當德國已三面包圍波蘭西部的時候,波蘭軍隊仍然把主力沿著邊境部署,而不願意放棄西部工業區,並收縮到維斯托拉河流域右線重點設防。甚至還寄希望以英法聯軍的支援,反攻至柏林。結果可想而知,幻想守住一切,反倒丟掉了一切。
大部分初創公司,應該是集中優勢力量突破一個點,等待資本回暖。同時精耕細作一個細分領域,在大公司無暇顧及的垂直行業殺出一條血路。無論是後期被收購還是能夠獨立壯大,都是比較好的結果。切忌大而全,什麼都想做,做自己擅長的才是最重要的。舉例來說,一些公司利用硬體優勢轉型打造語音互動晶片,另外還有金融知識圖譜公司從智慧投顧轉為智慧監管,還有大批聊天機器人公司,從做純軟體的聊天機器人轉為為B端客戶提供智慧客服解決方案。
而且,對於做平臺這個事情,要單獨提出來聊一聊。自然語言互動平臺,沒有大量的人員和資金支援,是無法實現的。由於沒有辦法進行工業級產出,導致了大量資本投入換來的只是Demo和論文,而不是實實在在的產品。因此,在細分領域做強做好,才是小公司的生存之道。
四、商業模式和產品的重要性
從技術到產品落地,還只是萬里長征的第一步,產品在市場上真正被使用者所接受,並能產生良性的流水和利潤,這才是正常的商業模式。我們看下目前幾個比較火熱的聊天機器人產品。首先是兒童教育機器人,教育、醫療和金融是一直都很熱的領域。自然而然的,很多產品都會冠以人工智慧教育機器人的名號。但兒童教育聊天機器人真正能解決使用者需求麼?很明顯不能。大多數家長還是報以嚐鮮的心態,給孩子買一個玩具,並沒有寄希望於讓機器人起到“教育”的作用。但畢竟兒童市場是巨大的,中國有1.5億3到12歲的兒童,每年的新生嬰兒數量也達到了2000萬。兒童教育機器人的出貨量在近三年一直保持著100%的增長。因此,在這個市場上,影響使用者購買的很重要的一個因素是價格,也就造成了目前整個行業利潤的持續走低。隨著更多廠商的加入,紅海市場也逐漸變成了血海市場。另外一個典型的案例是老人陪聊機器人,這種機器人從商業模式上來看,我認為並不成立。首先,老人們對聊天機器人的接受程度不高,購買力也不強。其次,老人在對話過程中,由於對話速度、連貫性、方言等問題,使得聊天機器人的表現要更差。
最近網上討論的很多的一個典型案例是誇誇機器人。其來源是“相互表揚小組”,這些活躍在QQ、微信、微博上的社群的目的,言簡意賅又單刀直入:溜鬚拍馬,相互誇獎。無論是高興的事情例如考上了大學、獲得了獎勵,還是倒黴的事情例如被老闆罵,烤糊了麵包,在群裡都可以得到天花亂墜的誇讚。而有公司還真的將誇誇機器人產品化,但結果是曇花一現,僅是蹭了一波熱度,卻沒有持續的使用者留存。其實,誇誇機器人在商業角度上是不成立的,沒有一個可行的變現路徑。三聯生活週刊有個評論說到:“人們容易為快節奏的生活所累,更容易在各種新鮮事物面前短暫停留。所以人們也清醒地意識到:來自陌生人的鼓舞與表揚雖然溫暖,但保質期卻是極其有限與流於表層的”,因此付費求誇的事情也變得不切實際了。
再來看下2B的業務,真正成功的專案應該是給需求方帶來成本的降低或收益的提升。比如說淘寶店家的客服機器人,一套系統的成本,如果能夠低於將200位人工客服降低到100位所節省下來的成本,同時在獲客效果上又有所提升,那就是一個成功的專案。況且,對於開發者而言,從單一專案逐步變為PAAS服務或SAAS服務,所帶來的開發成本會顯著降低,也就可以為規模化打下良好的基礎。
剛剛聊了一些商業模式的問題,那麼從產品形態上,有一句流行的話說的是“技術不夠,產品來湊;產品不夠,運營來湊”。既然聊天機器人受限於技術無法達到人類期望值,那麼是否可以從產品設計的角度上,讓使用者不去關注技術表現本身,而是從其他維度對產品產生粘性?答案是肯定的。做產品的關鍵在於“高出使用者期望值”,這顯然對於AI產品是不友好的,因為使用者期望值太高了,所以要在其他層面上去想辦法。文章一開始提到,產品設計的一個原則應該貼合人類的七宗罪。我們曾經獲取過一批來自不同聊天機器人脫敏後的使用者聊天資料,其中包含了很多難等大雅之堂的語言。所以有一些成人用品公司開始用對話技術包裝自己的產品,也算是一種成功的商業實踐了。
當然,從正常的產品角度而言,如果一個聊天機器人產品的形象和使用感受,超越了聊天本身,給使用者帶來了不同的驚豔感,也可以算得上一種取長補短的方法。正如我們下一節要討論的聊天機器人的更多形態,如果聊天機器人被人格化、IP化之後,使用者也不會僅僅關注對話,而是會從更多的需求層面產生對產品的粘性。
五、多模態互動和虛擬生命
在技術不斷進步的同時,聊天機器人也逐步邁向其下一代正規化-虛擬生命。其核心在於模擬生命的主要特徵,以多形態和多模態進行互動[3]。設想一下,如果你是蔡徐坤的粉絲,如果有一個聊天機器人具備蔡徐坤的形態和聲音,並且可以進行互動,那是多麼令人興奮的一件事情。同時,在不同的性格和人設下,虛擬生命的互動體驗也會變得更為豐富。
再進一步,除了IP化和人格化,多模態互動能力會進一步增強虛擬生命對使用者的認知和表現力。虛擬生命能夠通過麥克風陣列、攝像頭聽得到、看得見,使其能夠綜合感知使用者意圖。同時,利用知識圖譜,虛擬生命能夠和人以及周圍環境進行“真實自然”的交流,包括規劃、推理、聯想、情感和學習能力,具有非常強的可用性和可互動性。再進一步,通過美術設計、動作捕捉、全息投影等技術,虛擬生命可以在不同裝置、不同場景下展示不同的形象,除了自然語言交流,還可以進行舞蹈、唱歌等更多樣的體現。
目前日本的Gatebox和國內的狗尾草智慧科技,都提出了聊天機器人的虛擬生命形態。例如,狗尾草智慧科技開發了世界上第一款結合了GAVE引擎(Gowild AI Virtual Engine)的虛擬生命產品-琥珀·虛顏(如圖7),搭載HoloEra硬體平臺及360°全息投影,創造一個有情感、可養成、可進化的虛擬存在,但這種存在又可以和周邊世界進行多模態真實互動,並針對使用者行為習慣形成不同的性格體系。同時,人物還可以換成二次元角色和真實的明星,進一步提升使用者體驗和粘性。
在這個新的賽道上,相信未來的聊天機器人以及虛擬生命,會以更好的形態和體驗感呈現給我們。
六、革命尚未成功,同志仍需努力
在這個廣闊的市場上,進步的空間還很大,挑戰還有很多。但有挑戰的事情才有意思,不是麼?
作者簡介:邵浩,狗尾草人工智慧研究院院長,日本國立九州大學工學博士,上海靜安區首批優秀人才。
參考文獻
[1] Zeleny, Milan (1987). "Management Support Systems: Towards Integrated Knowledge Management". Human Systems Management. 7 (1): 59–70.
[2] J. J. Sylvester (1878) "On an application of the new atomic theory to the graphical representation of the invariants and covariants of binary quantics, — with three appendices," American Journal of Mathematics, Pure and Applied, 1 (1) : 64–90
[3] 邱楠,王昊奮,邵浩,張民 (2017),從聊天機器人到虛擬生命-人工智慧技術的新機遇,中國人工智慧學會通訊,7(11): 32-40