網易有道今日召開釋出會,宣佈完成首次融資,估值達 11.2 億美元。
釋出會上,網易高階副總裁、有道 CEO 周楓首次公佈了公司深耕教育領域的 TEACH 模型。其中,「H」代表的智慧硬體(Hardware)構成公司業務重要一環。去年年底,有道釋出了首款智慧硬體產品翻譯蛋後,收穫了市場的良好口碑和銷量。釋出會上,有道宣佈,即將推出兩款全新智慧硬體:有道翻譯蛋 2 代和有道詞典筆。
近年來,翻譯市場呈現愈發火熱的態勢,大批玩家湧入,不論是在業內深耕多年的有道、百度,還是後起之秀騰訊、科大訊飛、搜狗、彩雲小譯等,都推出了自己的軟體翻譯應用,有道、搜狗、訊飛還推出了自己的硬體裝置。
3 月 12 日「狗勝節」這天,搜狗旅行翻譯寶正式開售,售價 1498 元。網易有道也在同一天宣佈將於近期上線其有道翻譯蛋 2.0,售價千元以內(1.0 版翻譯蛋售價 688 元)。
八天後的 3 月 20 日,搜狗宣佈其旅行翻譯寶銷售額破 1000 萬,還在紐約時代廣場的納斯達克 LED 螢幕上做了一波廣告。翻譯硬體市場達到一個小高潮,這些硬體最直擊的痛點便是旅行場景的翻譯問題。
而科大訊飛的曉譯翻譯機(售價 2999 元)、譯唄(售價 1199 元)以及分音塔科技的準兒翻譯機(售價 1288 元)等多款移動翻譯硬體裝置早在二者之前就已經推向市場。
技術進步驅動下的硬體市場
「技術變得可行了,質量達到一定的水平了,消費者的需求就被釋放了,自然就有很多人加入來做這件事。」網易有道首席科學家段亦濤表示。段亦濤博士畢業於加州大學伯克利分校,博士在讀期間就參與了有道底層架構的搭建工作,供職有道有十多年時間。
他所說的技術變得可行了,最典型的標誌是,最近兩三年,機器翻譯技術完成了從統計機器翻譯(Statistic Machine Translation,SMT)向神經網路機器翻譯(Neural machine translation,NMT)的轉換。
也就是說,在系統的訓練過程中,不再需要領域知識的幫助,機器翻譯的技術門檻開始降低。
以機器翻譯為例,在 SMT 時代,機器學習研究者需要與語言專家共同工作,對詞性進行標註,將句子進行分詞處理,做很多語言學相關的工作。
而 NMT 方法只需輸入大量的源語言和目標語言對,系統就能夠自動學習翻譯方法。系統訓練好後,再輸入源語言句子,系統就有能力輸出目標語言。
這意味著機器翻譯系統的構建過程不再需要語言學家的大範圍滲入,只需以顧問的形式對工作進行指導即可。
正是因為不需要艱深的領域知識,只需要足夠多的優質訓練資料。因此,使用 NMT 模型,研究團隊能夠快速覆蓋更多的語言對(中英、中法、英日等語言與語言之間的匹配稱為語言對)。
目前,百度翻譯支援 28 種語言的線上互譯,有道翻譯蛋支援 27 種語言,搜狗支援 18 種,訊飛支援中、英、日、韓、法、西六種語言,彩雲小譯目前支援中英日三種語言。
除語言覆蓋易擴充套件這一優點之外,NMT 的另一大好處是相比於 SMT,翻譯結果更加準確流暢。機器翻譯業內有一個較為權威的衡量翻譯效果的指標——BLEU 值,當初 IBM 提出這項指標的時間是在 2002 年,那時還是 SMT 的天下。
BLEU 值著眼於翻譯結果的充分性、忠實度、和流暢度。充分性是指有沒有漏翻的情況,忠實度是指準確率、流暢度指結果和人類正常表述的貼合度。
SMT 技術發展到後期,效果提升緩慢。與此同時,使用 NMT 技術進行翻譯的效果正迅速提升。反映到 BLEU 值上,這兩年 NMT 技術取得的提升大約是過去十年 SMT 取得的提升總和。
事實上,在 NMT 時代,能覆蓋到多少種語言已經不是各家 PK 的戰場,翻譯的準確度、流暢度才是。
需求多了,玩家多了,玩法也就多了。曾經使用者只能以文字的形式進行輸入,得到文字結果。現在,結合語音識別、語音合成技術,翻譯服務能夠以語音的形式提供服務。結合影像識別領域的文字識別技術,拍照翻譯也得以實現。目前,幾乎所有的主流機器翻譯服務提供商,都具備語音翻譯和拍照翻譯的能力。而這兩項能力與出國旅遊的場景天然契合,從一定程度上刺激了專用翻譯硬體產業的發展。
「這幾年,機器翻譯呈現出明顯的從雲到端的態勢。」段亦濤說。
翻譯 App 為什麼不夠用?
說到底,翻譯硬體上能夠實現的功能,手機 APP 都能實現。那麼,消費者為什麼還要花幾百上千甚至幾千元購買一個專用的翻譯硬體呢?
儘管和 APP 功能相同,但翻譯硬體有著不可替代的技術優勢,表現在翻譯效果上能夠呈現出可以感知到的差別。搜狗 IoT 事業部產品負責人李健濤解釋道:
首先,在拾音方面,手機天然不是為遠場拾音所設計的。
手機的使用距離預設在 0.5 米以內,並且會通過技術手段對遠場音訊訊號進行消除。而在語音翻譯的使用場景中,大多數情況是在 0.5 米之外的。
搜狗旅行翻譯寶主打的旅行場景會面臨嘈雜的街道環境,這些對麥克風陣列的設計都構成了挑戰,需要進行一定的定製化。
隨後,在處理能力方面,手機晶片不能為翻譯 APP 專用,在離線翻譯時會出現延遲、翻譯不準確等問題。而專用硬體中的晶片完全為一個功能服務,更加可控。
比如,搜狗旅行翻譯寶採用 CPU + GPU 計算架構,大的矩陣運算交給 GPU,小的瑣碎任務交給 CPU。
不過,僅僅因為翻譯效果好,消費者就會願意掏錢買硬體嗎?
「有一些人對翻譯的需求是很高的,你讓這些人每次開口說話的時候都掏出手機來,解鎖,找到翻譯軟體才能交流,是很惱人的。」吳迎暉說。
經過小半年的銷售資料與使用者反饋,有道發現翻譯蛋的主要使用者有以下幾種人:
早期嚐鮮的極客、長期出差在國外的商務人士(且一般是年紀較高的商務人士)、英語學習人群、對翻譯有強烈需求的群體(例如有菲傭的家庭、跨境旅遊的人群等)、以及不知道翻譯 APP 這碼事兒的人。
另外,搜狗李健濤還談到,翻譯寶的購買群體中,還有很大一部分是子女買來送給父母。在出國遊場景下,一鍵翻譯的便攜裝置幾乎是年長父母的剛需。一位翻譯硬體從業者曾經向機器之能表示,通過手機進行翻譯交流,對方可能會產生不安全感,擔心隱私洩露問題,而且面對旅遊場景素昧平生的人,你也不會放心把手機交到他手上。
但是以上幾類目標客戶,都不是覆蓋面很廣的群體,那麼這些賣翻譯硬體的公司,為什麼要費力做一個受眾不會太廣的產品呢?
翻譯蛋是有道翻譯商業化的一部分。網易有道副總裁,也是網易有道翻譯蛋的產品負責人吳迎暉在接受機器之能的採訪時表示,
「我們雲端接的是有道翻譯的技術,硬體是深圳那邊很成熟的部件組合起來的。」
吳迎暉給我們算了一筆賬,每臺有道翻譯蛋售價 688 元,如果能達到年銷售量達到十幾萬臺的目標,那麼翻譯蛋就是一個年銷售額達到 1 億元的產品。
這個市場有多大?一年能不能賣出十幾萬臺?
吳迎暉表示,有道在投身硬體市場之前,進行了一番市場調查。
「2016 年訊飛曉譯翻譯機賣了 7 萬臺,價格將近 3000 元。在如此高的售價下取得了可觀的出貨量,我們認為這或許是一個可以進入的市場,畢竟年出貨量在 10 萬臺以上的智慧硬體產品是不多的。」
「靠軟體賺錢要等到什麼時候,」翻譯軟體彩雲小譯的創始人兼 CEO 袁行遠說,
「我覺得這些翻譯硬體如果沒有超過 APP 的使用者體驗,只是賣一個裝上翻譯 APP 的專用手機的話,是在拿名聲換錢。」
硬體設計差異背後的邏輯
當前主流翻譯硬體產品,在硬體和系統設計方面均呈現出了很高的區分度。
在「面子」,也就是硬體設計方面,各家產品造型各異,顯然是有自己的考量。
網易吳迎暉談到,在翻譯蛋的產品設計過程中,團隊刻意避免了翻譯蛋與手機在外形方面的雷同。
「一定要避免這個,不要讓消費者拿它和手機去比。」吳迎暉說,
「一部紅米手機才多少錢,消費者一比較,就會覺得『我買手機多好,還能發微信打電話』,這樣就忽略了我們這個裝置的專用屬性。」
所以,網易在外觀設計、螢幕選擇、重量設計方面都與手機做了區隔。最終面市的翻譯蛋外形圓潤小巧,機身為工程塑料,搭配一個 2.0 英寸的螢幕,自重 60g,僅為一顆雞蛋的重量,外出時搭配保護套還能掛在脖子上。
不過在搜狗看來,「使用者是一定會拿你的東西和手機比的,這是一定的,不是說你想讓他不比他就不比的。」李健濤說。
搜狗旅行翻譯寶長相酷似手機,螢幕佔比很大,而且為了滿足拍照翻譯的需求,還搭載了攝像頭。
搜狗沒有刻意避免外觀上的相似,更希望以比手機 APP 更佳的效能吸引消費者。
我們注意到,和訊飛的兩款翻譯硬體產品不同,網易翻譯蛋自帶螢幕。
「不要螢幕其實是非常、非常激進的手段。」吳迎暉認為,
「沒有螢幕確實更純粹,給人一種就是語音裝置的感覺,我們的工業設計師傾向於這種風格。而且曉譯的定位就是商務化,需要沉穩的感覺。」吳迎暉說,
「但同時,我們要清楚,現在的語音識別以及翻譯總有不準確的時候。」
吳迎暉認為,當前的語音識別技術,在安靜環境下能夠表現很好,但在嘈雜環境下效果差強人意,而且翻譯技術也不能達到 100% 的準確。
當錯誤情況發生時,如果沒有螢幕的話,使用者會抓狂,因為使用者不知道里面發生了什麼事情,是識別錯了還是翻譯錯了,也就不知道該拿它怎麼辦。
搜狗在試用回訪的過程中也注意到了螢幕的問題。
他們發現,除網易所考慮的增強使用者信賴感這一原因之外,還有一個原因是,在對話過程中,使用者其實不必等對方說完後機器朗讀出來才能獲取資訊。
機器朗讀速度慢,如果能夠在翻譯完成後直接檢視文字,互動效率會更高。
在按鍵設計上,所有的硬體翻譯裝置都不約而同地選擇了兩個實體按鍵的配置,一個用來將「源語言翻譯至目標語言」,另一個則是相反的方向。
「一開始我們也擔心使用者會搞不清楚怎麼用,但是後來我們發現,設計成兩個按鍵,使用者在初次使用時的認知成本也不高。」吳迎暉說。
若設計成一個按鍵,系統將更加簡單易用,這一點從各種翻譯 APP 的比較中可以明顯地感受到。
比如彩雲小譯擁有識別語種的能力,因此只需一個按鍵便能滿足使用者需求,體驗確實更加人性化。
在這一問題上吳迎暉也坦言,在產品釋出當時,有道在識別語種的能力上還不成熟。
而在搜狗看來,自動識別語種這件事,市面上沒有哪家的技術是成熟的。
「要識別語種,至少需要十秒以上的音訊才可以。現在的技術還遠達不到只說一句 Hello 或者 How are you 就能夠識別出來你在說哪種語言。」
而且「實際使用過程中誤觸率是很高的。」搜狗語音互動技術中心研發總監陳偉表示。
對此,彩雲科技袁行遠認為,不需要十秒鐘那麼長,「但確實需要一定時間」。
袁行遠表示,根據彩雲的測試結果,通過手機端執行音訊分析的神經網路,彩雲小譯 APP 可以在幾秒的識別時間內做到 95% 的中英文辨識準確率。
技術優勢不同,產品體驗不同
在「裡子」,也就是系統層面,各個產品之間的差異也不小。
語音翻譯這件事,主要分為三個部分:語音識別、機器翻譯、語音合成。
和採用自家語音識別技術的訊飛和搜狗不同,作為深耕翻譯領域的公司,有道對語音識別稍顯陌生。在有道翻譯蛋 1.0 版本中,選擇了合作較多的微軟技術。
目前各家語音識別技術效果都達標,吳迎暉坦言,訊飛語音識別很難得的一點在於,使用了很多中國人讀英語的語料對系統進行訓練,這樣在英語學習場景中,識別中國人說英文的準確率會大大提升。
不過目前,有道已經組建好自己的語音識別團隊,在有道翻譯蛋 2.0 版本中,將採用自己的語音識別技術,以降低出錯的概率,增加對系統整體的掌控性。
至於機器翻譯層面,由於各家長期積累的語料不同,在不同的垂直領域翻譯的質量也不盡相同。
例如,有道詞典在十多年的發展過程中積累了大量新聞方面的雙語互譯資料,因此有道在新聞方面,特別是科技新聞方面表現良好。
有趣的是,有道在其競品調查過程中,發現百度翻譯在機械學術資料領域發揮出色,而谷歌的特點在於穩定。有道表示,不管用多低頻的句子測試谷歌的系統,它的翻譯結果都不會出特別大的問題。
搜狗陳偉則表示,搜狗的優勢領域在於口語對話,這來源於搜狗在輸入法、同傳等任務上的長期積累。
「各家資料來源不同,也決定了優勢領域的不同。比如百度翻譯在機械學術領域好,我覺得應該是他們拿到了大量的專利資料。」陳偉猜測。
從翻譯硬體整體的運轉流程來看,分為線上和離線兩種模式。
2017 年 10 月網易有道翻譯蛋 1.0 釋出的時候,產品還不具備離線翻譯功能。
上市後,團隊收到的使用者反饋中右 60%-70% 針對離線功能。使用者不能理解,為什麼買回家一個專用裝置,還需要連結 Wifi 才能工作。
離線模式,也正是產品難點所在。
但是,離線功能需要完整的引擎棧,而吳迎暉表示,市場上想要找到一個已經商業化的效能優質的離線語音識別引擎都很難。而且,要把 NMT 模型壓縮到移動端晶片上去,還需要面臨晶片選型的問題。
「離線這件事情很難做,而且需要時間驗證。當時那個時間點上,國內同時出現了包括準兒在內的好幾款翻譯機,曉譯也已經面市有一段時間了,訊飛又出了第二款翻譯機譯唄。」吳迎暉知道,市場對翻譯硬體的需求正非常旺盛,
「我們沒時間再等,等我們所有的技術都備齊了,我們也就錯過了那個市場週期。」
比網易翻譯蛋提前面市的訊飛曉譯擁有離線翻譯功能,但支援語種有限,且翻譯質量有待考量。有不願透露姓名的業內人士甚至懷疑訊飛的離線翻譯使用的是 SMT 技術而非 NMT。
2018 年 3 月,搜狗旅行翻譯寶面市時,搭載了離線翻譯功能。搜狗認為,作為一個旅行場景的翻譯硬體,離線是必須的。原因非常簡單——在國外使用蜂窩網路體驗很差。
「出過國的人都知道,國外的移動訊號往往並不像國內這樣方便,而且就算是辦理了海外移動上網業務,訊號也需要傳送至國內基站,延遲非常嚴重,這將直接影響裝置的翻譯效果和體驗感受。」搜狗李健濤說。
技術負責人陳偉表示,目前搜狗旅行翻譯寶的離線模型已經壓縮到線上模型的 1/48,且精度接近無損,還能實時響應。
兩大對手均已在離線翻譯方面展開嘗試,網易有道也拿出了不甘落後的態度。有道翻譯蛋也表示帶有離線功能的網易翻譯蛋 2.0 將於近期上市。
與這些自研技術的大廠不同的是,全部外接第三方技術的準兒翻譯機在離線問題方面的解決方案可謂簡單粗暴——提供一些常用場景下的常用句子及其翻譯,並打包成離線包儲存在機器裡。
比如「麻煩讓一讓」,「這個多少錢」等,只要點選相應的句子,準兒就會以語音的形式輸出對應的翻譯結果。
不過準兒的這一策略是不可持續的,隨著各家離線 NMT 技術越來越成熟,準兒面臨的形勢也將越來越嚴峻。
翻譯硬體的未來:「快譯通」還是嵌入其他硬體?
吳迎暉認為,在著名的技術採納曲線中,翻譯硬體還處在 Early Adopter 階段,並且其中的 Gap 很難跨越。
「這個產品最終不可避免的一個問題是,對大眾來說,它的使用頻率是非常低的。」他說。
因此,有道在積極探索翻譯蛋的其他功能,例如針對英語學習者新增查詞功能,將翻譯蛋變成一個語音詞典,或者新增幫助學習者正確發音的功能等。這些功能聽起來非常復古,讓人聯想到 20 世紀初的「快譯通」。
不過在搜狗看來,當前翻譯寶形態的產品只是一個過渡,未來翻譯技術將被嵌入至耳機、眼鏡等硬體中。
搜狗翻譯耳機的市場調查已經開始進行。不過,他們也發現谷歌和訊飛的翻譯耳機設計嘗試都不成功。
「首先拾音質量非常糟糕,大量雜音消除不掉,導致識別結果很差。另外像 Google Pixel Buds,它與手機之間的連線很差,最後只能設計成通過自主協議連結手機,只能連結 Pixel。」李健濤說。
「所以說連無線耳機都是個問題,翻譯耳機就更是問題。這件事不是我們不想做,而是確實技術還有門檻。」
在產品的營銷渠道方面,李健濤表示,目前與 B 端合作伙伴還沒有探討出特別成熟的玩法出來,「從生意的角度來講,他們必須考慮租賃多少次,每次多少錢,才能攤掉成本。但對於翻譯硬體類的產品,成本是不太容易覆蓋的,也就是說傳統的租賃方法是不能套用在翻譯硬體上的。」
除直接面向 C 端消費者的渠道外,搜狗也在積極地與幾大 OTA 品牌,包括途牛、攜程等公司接觸,希望共同摸索出有效的合作模式,類似出境遊時旅行社會提供的 Mifi。