引語:亞馬遜的Echo大賣掀起了一股語音智慧的熱潮,語音互動技術成為炙手可熱的時代寵兒。在日新月異的科技領域,眼看則人工智慧將要引領一番新的革命,網際網路巨頭和科技創業公司都紛紛入場。新時代的商業規則蘊含著新的機遇,對於雙方而言,這都是一次重新洗牌的最佳視窗期。
什麼是語音開放平臺,及何為開放?
這一年來,幾乎語音行業內的大小公司都在做一件事,那就是試圖建立由自己主導的語音生態產業鏈。在這個產業鏈中,產品製造商,技術服務商,平臺提供商和內容服務商組成整個產業鏈的生態。可以說,誰的生態系統最完善,未來誰就將分得更大的市場份額。大勢當前,幾乎所有的語音技術公司都開放了其智慧語音平臺,給硬體開發者,應用技能開發者提供了語音互動能力,也招徠更多的玩家進入到他們建立的生態系統之中。
各大語音平臺比較
開放平臺的主要功能,就是賦予硬體或技能應用獲得“能聽會說,更智慧”的能力。目前,各大科技公司都紛紛開放語音能力,意欲吸引更多的玩家入場,下文筆者將詳細分析比較各大智慧語音開放平臺。
BAT巨頭
百度DuerOS開放平臺:DuerOS是百度推出的對話式人工智慧作業系統,即智慧語音互動平臺。DuerOS的技術架構包含“對話服務”和“技能框架”兩大基礎協議。兩大協議連通起來的對話核心系統、智慧裝置開放平臺和技能開放平臺,構成了完整DuerOS的智慧生態系統。
圖為DuerOS 2.0系統構架
智慧裝置開放平臺面向傳統硬體廠商和開發者輸出軟硬兼備的多層次解決方案,包括個人版、輕量版、標準版、參考設計等多樣化解決方案,能夠低成本、方便靈活地滿足各個型別廠商和開發者不同層次的需求。例如,軟硬一體化的智慧語音互動開發解決方案SoundPi,整合全方向喚醒、聲源測向、定向拾音、噪聲抑制、混響消除、回聲抵消、遠場語音識別、語義理解、語音播報等多項技術。技能開放平臺擁有豐富優質的AI內容資源,包括自有的10大類、100餘種原生對話技能,支援接入第三方資源和內容,如音樂、有聲、新聞、娛樂等,顯著降低了開發成本。
DuerOS的核心層是對話系統,它之所以所以能夠有好的聽清、聽懂效果,主要歸功於三個方面:資料多、技術深、內容廣。所謂的資料指的是百度擁有龐大的知識圖譜、需求圖譜、網頁圖譜、地理資訊圖譜及使用者畫像,技術則指的是十餘年裡百度所積累的自然語言處理、對話控制、對話管理、自然語言生成、搜尋等技術,而內容指的是百度擁有的超過10000個資訊垂類內容。
阿里AliGenie語音開放平臺:AliGenie語音開放平臺是由阿里人工智慧實驗室(AI Labs)推出,主要包括精靈技能市場、硬體開放平臺、行業解決方案三大部分,全面賦能智慧家居、新制造、新零售、酒店、航空等服務場景。
圖為AliGenie語音開發者基本構架
面向硬體品牌商和方案商,例如比如音響、電視、玩具、OTT盒子、投影儀和汽車等,AliGenie開放平臺將提供語音互動技術、自然語言處理能力、雲服務系統、開發工具包和一站式軟硬體及量化標準。針對個人和行業應用開發者,將提供包括語音喚醒、語音識別、聲紋識別、語意理解、語音合成五大核心語音能力的開發者套件,內容提供者使用內容接入套件、即可快速建立語音技能;應用開發者使用自定義技能元件,可定製各類技能。阿里巴巴推出行業的語音解決方案自然帶有阿里的零售服務業基因。對於線下零售、航空候機、酒店客房等應用場景,AliGenie開放平臺推出了垂直行業解決方案,例如店鋪精靈,酒店精靈和航旅精靈等,這些個性化的語音助手將成為服務業的得力助手。
騰訊雲小微語音開放平臺:騰訊雲小微於2017年騰訊「雲+未來」峰會上正式釋出,分為三個部分,Skill開放平臺,硬體開放平臺和小微客服機器人。
圖為騰訊雲小微基本構架
騰訊雲小微的Skill是指它為各種各樣的裝置提供智慧語音對話的能力和內容;硬體開放平臺是一個能將語音互動能力輸出給第三方硬體廠商的平臺,即雲小微將語音喚醒、語音識別、語義分析、信令收發以及眾多的內建資源及服務,如音樂、天氣、導航等核心能力提供給智慧音響、智慧電視、智慧玩具、OTT盒子等傳統硬體領域的合作伙伴,實現使用者與裝置、裝置與服務之間的語音聯動能力;小微客戶機器人可以幫助使用者提高效率,降低人力成本。使用者需要匯入業務領域知識庫資訊,建立機器人知識資訊基礎,透過逐步調優,使得機器人機器人實現常見問題的自動應答。
作為網路社交的巨頭,騰訊不僅擁有海量的影片、音樂的內容資源,還擁有云端億萬使用者的資源,騰訊雲小微從一開始就拿到一副好牌。如何在平臺之爭中勝出,就且看鵝廠的戰略策略了。
傳統語音行業的科技公司
科大訊飛致力於智慧語音及人工智慧核心研究和產業化十八年,是國內最大的智慧語音上市公司。訊飛開放平臺致力於為開發者打造一站式智慧人機互動解決方案。目前,開放平臺以“雲+端”的形式向開發者提供語音合成、語音識別、語音喚醒、語義理解、人臉識別、個性化彩鈴、移動應用分析等多項服務。
思必馳的DUI(Dialogue User Interface)開放平臺是以D-對話為核心的一站式互動定製平臺,覆蓋多應用場景和第三方內容資源,內建語音技能庫,為物聯網、移動網際網路和網際網路的開發者,提供單項技術服務和一站式對話互動定製解決方案。作為一個全鏈路智慧對話開放平臺,DUI提供的,不僅是基於思必馳智慧語音語言技術的對話功能,更包括開發者在定製對話系統時所需要的綜合服務,如GUI定製、版本管理、私有云部署等,讓開發者可以完全依據需求隨心所欲定製對話互動系統。DUI開放平臺擁有青囊系統、天機系統、紫微系統、玲瓏系統四大系統。
雲知聲的開放者平臺以方案為入口,基於特定應用場景打造智慧語音互動應用的模版。例如智慧電視方案、智慧汽車方案、音樂搜尋方案等。為開發者提供一個智慧語音互動系統的完整而便捷的開發環境。這些方案類似於一個個開發模版,開發者建立應用時可以為自己的應用選擇合適的方案,開發者的應用就獲得了該方案中所配置的技術服務和內容服務。雲知聲是一家專業的語音互動提供商,在移動網際網路、智慧家居、可穿戴裝置、車載導航、醫療、教育、呼叫中心等領域有豐富的經驗。
創業公司
出門問問推出的AI開放平臺其通用版本也是向開發者和硬體廠商免費開放的。非申請或邀請制,只需登陸平臺網站註冊就可立即下載整合SDK,擁有全棧式語音互動技術整合,平臺工具操作簡單,適配多場景,且產品整合廠商可根據自身產品需求,自主針對各自產品進行個性化的功能開發,出門問問透過產品獲得流量、資料,而產品則能獲得AI技術賦能。
Rokid的開放平臺語音服務包含Rokid技能開發工具和Rokid語音接入。Rokid技能開發工具幫助開發者為所有搭載Rokid開放服務的裝置開發有趣的技能,實現使用者各式各樣的語音互動需求。Rokid語音接入能夠為配有麥克風和揚聲器的聯網硬體裝置開啟Rokid開放服務所提供的智慧、可擴充套件的語音能力。並且,其100%的硬體技術和70%的程式碼將全部開源。
技術賽道難分伯仲 投資研究構建生態
語音能力的技術指標是什麼?可以說語音識別率的高低是決定使用者體驗的最直觀的一項,而各平臺的語音識別率都能達到90%以上,因此已經難以成為評判好壞的決定性因素。在傳統的技術領域中,專業性具有不可替代的統治地位,但現在的語音識別領域已不是一枝獨秀的時代。
科大訊飛、雲知聲、思必馳是幾家專注於語音識別技術的公司,依靠垂直語音技術領域,長期盤踞主流語音市場,擁有先發優勢。這些科技創業公司在語音領域深耕多年,在業界有多年的人脈和資源的積累。人工智慧時代,智慧語音作為AI最先落地的突破口,迅速成為全球網際網路巨頭關注的焦點和角逐的戰場,所以,科大訊飛、雲知聲、思必馳也紛紛轉為AI全棧公司。當然,也有類似聲智科技、三角獸等語音技術公司堅持定位技術方案提供商。
隨著BAT進軍AI語音領域,轉為全棧的語音技術創業公司、傳統語音技術公司的不可替代性也受到了不可忽視的打擊。作為網際網路公司的BAT雖然入場較晚,但是不缺少財力的投入,並且憑藉著網際網路行業的大資料等資源發展自家的人工智慧技術,迅速搶佔智慧語音市場。其中百度最早佈局,以“All in AI”的戰略思維,集中火力發展AI產業,今年全資收購KITT.AI,把KITT.AI的語音能力和自然語言處理能力融入到百度平臺中;阿里也不甘落後,照搬亞馬遜模式,先推出天貓精靈,接著開放AliGenie開發者平臺;騰訊坐擁內容與社交使用者資源,一直以後後之勢切人市場,騰訊雲小微平臺的底層技術來自於擁有龐大資料的微信。
在語音產業的技術賽道上,目前,很難說哪一家擁有壓倒性的技術優勢。從這個角度說,讓更多的開發者進入到自己的生態系統之中,也是開放平臺的一個重要預期。除了構建平臺,各大公司也將投資研究作為戰略佈局的一項重要內容。比如說,百度釋出普羅米修斯計劃,將開放超大規模對話式AI資料集、鼓勵跨學科合作,並透過100萬美元的基金用於鼓勵和培養對話式AI領域的優秀專案和人才;阿里投資達摩院佈局科研市場;思必馳也表示將撥出2億基金,用以扶持平臺上優秀的開發者、優秀應用案例和創業專案。
結語:在智慧語音領域,評價的指標已經變得非常多元,實力的劃分也廣受爭議。在智慧領域內的第一梯隊究竟是具有先發優勢科技公司?還是佔據著雄厚資本和資源的商業巨頭?也許只有時間才能給我們答案。