5 月 25 - 27 日,在杭州,上千名志願者、出品人完成了一場為年青人舉辦的大會。按照發起人阿里巴巴技術委員會主席王堅的說法,2050 是一個年份,不太近,充滿想象,也不太遠,我們都能活著看到。
在第一次聽到「讓世界離年青人更近,讓年青人離世界更近」這樣的辦會理念時,我們想起機器之心用前沿科技內容聚合的全球 AI 青年,從在象牙塔裡研究技術到畢業後面臨創業、擇業的選項,他們不僅應該關心技術走向,也需要了解因為這些技術的創新促成了產業正在發生的商業變革。
而那些被我們報導過的 AI 創業公司,大多恰好處於成長週期的少年或是青年階段,如何生存和發展也同樣是他們心頭大事。
在 2050 大會上,機器之心發起了一場以《AI 技術公司的活法和前景是什麼》為主題的論壇,雲從科技、體素科技、深瞐科技、聲智科技、一知智慧和 Udacity 分別談了談 AI 技術如何才能「落地為安」。以下為第二支演講視訊——一知智慧創始人趙洲《巨頭之下,NLP 公司的生存之道》:
要點速覽:
NLP 落地場景其實非常多,無論是 to C 端還是 to B 端。但可做的事情這麼多,到底哪些適合我們這樣的創業公司來做,哪些不適合,哪些適合我們團隊的基因來做,哪些不適合我們團隊基因來做,是非常值得思考的問題,尤其是在很多巨頭入場的情況下。
實際上,智慧客服的場景非常複雜,因為智慧客服要對每一個商家、使用者提供不同的服務,回答不同的問題。往往是在每一個垂直領域,都要建一個知識圖譜,而它的場景又非常複雜,加上通常情況下使用者的問題也非常難,因此它定製化程度也非常高。但在目前 NLP 技術水平下,這些服務可以做到 70 到 80 分,而往往使用者在這個場景下的要求是 90 分。
我們不但做 NLP 和外呼的演算法推進,也做 CTI 的整合開發,就是打通從電話和計算機的服務發揮硬體的作用。軟硬一起推動,能幫助我們入場時設立一個比較高的門檻。尤其是巨頭已經開源了很多公開演算法,開源平臺可以進行免費呼叫的情況下。
創業公司要生存,首先是要保持技術的先進性,起碼是在第一梯隊上「跑步」,雖然在硬體、服務、GPU 、運算設施上,巨頭會比我們創業公司多 10 倍或者 20 倍,但是我們的演算法和工程能力依然是要跟巨頭保持在同一個維度。
在巨頭環繞的情況下,我們首先琢磨的不是把業務線鋪大,或者是建立一些演算法平臺支援各種應用,而是把一個場景做紮根,提高使用者粘性,實現率先領跑,能跑多遠就跑多遠,能跑多快就跑多快。
趙洲:
大家好,我是趙洲,非常感謝機器之心給我一個機會來分享一下我們的想法,當然了這是個命題作文:巨頭之下,NLP 公司生存之道。
當然這是我們創立這個公司的第一課,我們也是會非常嚴肅的考慮這樣的一個問題,就是說現在非常多的技術,已經可以公開來進行呼叫了,那麼我們這類 NLP 技術公司如何做到差異化,如何生存下去,是我們長久以來一直在思索的問題。
NLP 落地場景非常多,無論是 to C 端的還是 to B 端的,我們發現可以做的事非常多:可以做技術服務,包括像智慧機器人,智慧車載、智慧家居等。
但到底哪些適合我們這樣的創業公司來做,哪些不適合,哪些適合我們團隊的基因來做,哪些不適合我們團隊基因來做,都是非常值得思考的問題,尤其是在很多巨頭入場的情況下。
總體來說,NLP 的場景應用可以分為 C 端和 B 端,C 端直接是服務於客戶的,像智慧手機包括穿戴裝置,它對使用者的體驗和滿意度的要求非常非常高。服務於 B 端,做得最多的是智慧客服和呼叫中心。我們可以看到,現在很多 NLP 公司主打就是做智慧客服,給不同垂直領域提供不同的客戶服務。
我從學校走出來,會更關注於自然語言處理的一些技術。我們來看一下它的本質是什麼?
它的本質就是語音理解,語音理解的 task 是非常困難的,跟之前的視覺包括結構化的視訊到非結構化或者跟之前的語音,是非常有歧義性的。因為人對同一個表述、同一個意思會有不同問法,人的表述是多種多樣的,那麼如何把不同的表述對映到同一個表示中,這是個非常非常難的一個問題。
比如,要在有些書本上面進行搜尋。目前語音理解最新的技術可以做到,給出一本書,我們可以問它書裡面的一些話語,比如說惡性群體鬥毆是關多少年?它可以直接返回一個答案,這個就叫閱讀理解。
閱讀理解就是機器跟人一樣閱讀文章的內容,理解人的一些意思,機器在理解人的意思之後,對文章中的內容進行反覆閱讀並推理,最後得到一些答案,這是 NLP 最本質的一個技術。也就是說,如何讓機器可以理解人說的話語和狀態,是一個非常本質的問題。
那麼它有非常多的 task,現在大多數主流的 NLP 公司,包括非常著名的一些 NLP 公司,主要是做一個 task 叫做智慧客服。
我在創業之前也做過非常多智慧客服的專案,實際上,智慧客服的場景非常複雜,因為智慧客服要對每一個商家、使用者提供不同的服務,回答不同的問題。往往是在每一個垂直領域,都要建一個知識圖譜,而它的場景又非常複雜,加上通常情況下使用者的問題也非常難,因此它定製化程度也非常高。
與此同時,在目前 NLP 技術水平下,這些服務可以做到 70 到 80 分,但往往使用者在這個場景下的要求是 90 分。雖然客服場景已經有很多 NLP 公司進場,但在我們看來,其實這是非常難做的一個事情。
它的難點在哪裡?
不是這個事本身,而是在於智慧客服是一個高度定製化的方向。對每一個廠商、每一個公司,我們都需要派出不同的團隊進行定製化。原因在於不同的場景都需要不同的資料和知識來支撐,等同於一個定製化的專案產品。
另一方面,雖然業務會帶來一定營收,但是它的利潤非常微薄。對創業公司來說,首要的一個特性是需要活下去,活下去就是希望儘可能可以達到一個自負盈虧的狀態,即便我們可以不斷地融資。
所以,我們是偏向於進行另外一個維度的思考——是否可以在 NLP 領域找到一個通用化的角度,能實現基於現在的 80 分技術,也可以讓使用者非常滿意,這是我們長期思考的一個想法。
我們一知智慧現在做了一個場景就是賦能於智慧外呼。智慧外呼的前身是各個呼叫系統,現在是去實現機器給人打電話或者進行推銷等。
它跟智慧客服不一樣,這兩個任務是一個對偶的任務。智慧客服和智慧外呼不同的地方是在於哪裡?
智慧客服的特點是人是主動方,機器是被動方,機器需要接受人的一些問題,而人的邊界是非常廣闊的。智慧外呼是機器為主動方,人是被動方。在這個場景下,利用現有的 80 分的技術,可以做到使用者滿意的程度。因為它的邊界可控,定式化、通用化的程度比智慧客服高非常多。
第二點就是說,對於演算法技術而言,(智慧外呼的)門檻會更高,因為對於智慧外呼來說,它跟語音識別和 NLP 不一樣,它不僅僅涉及到演算法層面。我們還需要對硬體進行非常巨大的投入,在供應商層面到智慧外呼的演算法層面,建立一箇中間的硬體層面。我們不但做 NLP 和外呼的演算法推進,也做 CTI 的整合開發,就是打通從電話和計算機的服務發揮硬體的作用。軟硬一起推動,能幫助我們入場時設立一個比較高的門檻。尤其是巨頭已經開源了很多公開演算法,開源平臺可以進行免費呼叫的情況下。
後面的一些思考就是說,既然我們確定了做智慧外呼的這樣一個任務,具體選擇從哪個應用場景切入也至關重要。智慧外呼有有非常多場景,比如營銷、客戶召回、問卷,每一個場景都有一些巨頭,其中每一類客戶也都有非常多的需求,但是對一知智慧來說,能做到使用者滿意度、體驗度極高是我們第一位的選項,而不是用一個技術一次性全部鋪開,否則我們很容易就被淹沒了。
最終,我們進入到催收行業。大家一聽,可能會覺得催收行業是暴力催收的代名詞,大家會想象為,一些掛著金項鍊的老闆上門催收,其實現在不是這個樣子,大多數都是文明催收,國家也頒定了一些反暴力催收的法案,相比之前,外呼系統催收的市場也越來越廣闊。
市場規模的擴大來源於現金貸的流行。現金貸我們可以看一下,無論是阿里、京東,還是其他一些現金貸消費平臺的基本邏輯,都是促使使用者提前透支消費,然後再還款。2017 年,我們可以關注在網路現金貸行業的成交量是 2.8 萬億元,也就是說有 2.8 萬億的貸款需要進行還款。我們可以看一下,貸款的還款有兩個特性,一是使用者按期還款,一是使用者逾期還款,按期還款當然不需要催收。但其中 10% 到 15% 的使用者是會逾期還款的,也就是有 2800 億元是使用者逾期還款,需要我們把它催回來。
傳統催收公司會租用外呼系統,現在有 6000 多家催收公司租用撥出系統,然後挨個打電話進行催收。一般來說,每個催收公司會有 50 名催收人員,市場總從業人員有 30 多萬(之後我會分享一下,為什麼每個催收公司只有 50 名催收人員),平均年齡大概是 20 到 30 歲。
催收行業的一個核心特點是,以不同逾期週期有不同佣金,普遍分為五個等次—— M1、M2、M3、M4、M5。M1 代表是:第一月逾期,使用者沒有還款,可以通過行業資料看一下,大部分使用者是忘記還款,針對這類使用者要打一個電話提醒一下。在 M1 的情況下,催成一單有 10% 的提成率,它催成功率是在 73% 左右,是由人打電話進行的。
為什麼我們是選擇外呼這樣一個環節?首先要來看看行業目前的現狀。
催收行業從業人員需要不斷打電話催收的情況下,很容易在使用者有一些過激的行為時,出現辱罵等不當反應,很容易被投訴產生不好的影響。因此,催收人員的業務過程不可控制,回款非常難保證是行業面臨的普遍難題,另一方面,對催收人員來說,工作中也忍受了非常大的壓力,導致行業流動性非常大,同時招聘難度也非常大,因此每一家催收公司平均只能維持 50 個催收人員的團隊規模,非常難實現擴張。因此,我們做的第一件事就是,用機器人來嘗試代替催收人員,現在主要做提醒的業務。
從技術的角度看,智慧外呼主要涉及兩個板塊,一個是人機互動,一個是演算法平臺。人和機器要不斷地進行互動,催收也有策略,對 M1、M2 不同時期的使用者有不同的策略選擇,人可以從原有的使用者催收電話的對話中進行學習策略,從而再讓機器去掌握並輔助和逐漸代替人來進行催收。第二,現在的語音技術是非常成熟,包括語音識別和語音合成,所以現在是用結合多輪對話、語音識別的一個互動式性平臺,逐漸來代替催收人員的行業情況。
剛講到金融催收場景中的策略問題,機器可以學成一個策略,不同的策略怎麼學習呢?催收行業的資料也是海量的,對於剛開始創業的公司來說,主要是向大公司提供技術服務。
為什麼呢?因為創業公司最難的,不是資金和人員,而是人工智慧創業公司缺少資料的入口。如果沒有大量資料,人工智慧的演算法技術是非常難被訓練的。但金融催收行業有大量資料,並且也會對一些資料進行儲存。因為對外呼催收平臺來說,每一段錄音都必須要錄下來,作為解決糾紛、官司時可能用到的驗證資料。對我們初創公司來說,這種有非常多資料可以拿來用於訓練的行業,是比較好的一個切入點。
對目前的一知智慧來說,我們以產品打磨為主體的同時,不斷地保持技術領先性,不斷地在不同賽道上進行評測。
一個重要賽道是 Squard ,Squard 是一個語義理解的標準比賽。
我們是在十月份成立的,之後我們花了一個月的時間迭代技術。對於人工智慧的技術來說,它有兩個指標,第一個是單模型,就是說一個模型它的 performance 是多少,第二個是多模型的 performance 是多少。我們成立後在 Squard 上面刷榜。我們的單模型是作為世界第二進行提交的,我們可以看一下,上面所有的公司,都是著名的千億級 NLP 公司。
這裡可以回答我們如何在巨頭之下生存,第一是要跟巨頭比技術評測指標。雖然第一個是綠色的在第九名,但是單模型是第二名,第三名是騰訊,騰訊的 Insenble 模型拿到第一名。一個月後我們提交了多模型,排在了第四名,而這個賽道的前 30 名全是千億級別的創業公司,包括阿里巴巴、百度。一知是其中唯一一個初創公司。
創業公司要生存,首先是要保持技術的先進性,起碼是在第一梯隊上「跑步」,雖然在硬體、服務、GPU 、運算設施上,巨頭會比我們創業公司多 10 倍或者 20 倍,但是我們的演算法和工程能力依然是要跟巨頭保持在同一個維度。除此之外,我們不斷地在多輪對話等任務下,不斷地跟巨頭進行 PK,不斷地保持一些技術的領先性。
最後再回到場景的切入點,我們找了一個相對冷門甚至在外界看來有點low的方向,也就是催收,但我們認為在一知的技術上完全可以駕馭場景需求,以我們的技術能力可以把這個商業模式走通。我們是第一家進入催收領域的人工智慧公司,也實現了一定的營收分成。
在巨頭環繞的情況下,我們首先琢磨的不是把業務線鋪大,或者是建立一些演算法平臺支援各種應用,而是把一個場景做紮根,提高使用者粘性,實現率先領跑,能跑多遠就跑多遠,能跑多快就跑多快。