多款重磅翻譯產品落地之際,我們獨家專訪了搜狗語音負責人王硯峰

AI前線發表於2019-02-24

本文由 「AI前線」原創,原文連結:多款重磅翻譯產品落地之際,我們獨家專訪了搜狗語音負責人王硯峰
作者|劉海星
編輯|Emily

AI 前線導讀:”1 月 24 日,搜狗在北京國貿舉行了 2018 合作伙伴大會。會上,搜狗 CEO 王小川對搜狗的 AI 戰略及佈局進行了詳細闡釋,公佈了搜狗在翻譯領域的最新動作,同時釋出兩件重磅智慧硬體新品“搜狗旅行翻譯寶”和“搜狗速記翻譯筆”。通過 14 年的積累,目前搜狗已成長為使用者規模僅次於 BAT 的網際網路公司,搜狗搜尋為中國第二大搜尋引擎,輸入法為全球第一大中文輸入法。作為人工智慧的創新者,搜狗以“語言”處理為核心,目前已先後將自研 AI 技術落地於搜狗搜尋與輸入法等核心產品中。”

日前,AI 前線獨家採訪了搜狗語音互動技術中心負責人王硯峰,他為我們詳細闡述了搜狗發展技術與推出產品的思路。

多款重磅翻譯產品落地之際,我們獨家專訪了搜狗語音負責人王硯峰

搜狗如何解決人工智慧技術落地

AI 前線:手機上面已經有翻譯 APP 了,為什麼還要單獨做一個翻譯機?

W:在做翻譯機的時候,也經常會有行業的人問我們這個問題。但實際上如果你經常到美國、日本等國家,會發現其實這些國家的網路狀況和國內是根本沒法比的,大部分還是停留在 3G 的狀態。因此在手機網路,或者通過移動 WiFi 網路訪問語音或者翻譯服務的時候,大概率會出現速度慢,沒有返回的情況。因此我們覺得這個階段如果能有一個具有很強離線翻譯功能的裝置,幫助克服網路問題,那麼是可以非常切實的解決使用者這方面痛點的。

AI 前線:搜狗旅行翻譯寶有什麼獨創的技術?

W:我們的獨創性主要在於,一方面我們同時整合了語音和 OCR 拍照翻譯的入口,針對旅遊場景比如點菜這樣旅遊者們非常有感知的情景,做了針對性的優化。更重要的是這些功能,從語音識別,到 OCR,到翻譯本身,都是離線完成的。這個在技術上是一個巨大的挑戰。尤其是在翻譯方面,我們使用了最新的 T2T 深度學習翻譯框架。這個技術很多公司剛剛能夠做到在線上服務上使用,而我們就已經把它離線化了。從旅遊場景的翻譯效果上,我們離線的效能和線上效能基本接近,這是之前任何產品都不曾做到的能力。這個需要更大計算能力的支援,而目前市面上最優配置的手機上面都無法支撐這樣的計算力需求。所以總結一句話,語音翻譯和拍照翻譯可能已經有一些手機 APP 具有能力,但是完全不能離線化。而之前市面上已經發布的專門的翻譯裝置,無論是從能力的全面性上還是從技術效果上,都不能夠跟我們的翻譯產品相比。

AI 前線:搜狗對翻譯產品寄予什麼樣的期待?

W:2016 年在烏鎮網際網路大會上,我們在國內首發了中英語音同傳產品。幾天前,我們又首次使用了英中同傳系統,把 native 英文演講者的話語直接翻譯成中文。無論是翻譯機,還是未來的同傳,我們的期待都是產品能夠在真正的剛需場景中,帶給使用者更實際的價值。而具體到翻譯機產品,就是能夠在旅遊場景中,幫助出國的旅遊者,更好地解決出國遊的跨語言交流問題,帶給他們旅遊中的幸福感,減少他們的不便和焦慮。而且從這些年出國旅遊人數增長的趨勢來看,這本身也是一個足夠大的市場,具有足夠大的價值。

AI 前線:人工智慧從技術到產品之間會有一個很長的距離,你們是怎麼把技術應用到產品當中的?

W:第一我們有大量使用者,第二我們在做 to C 的產品,我們在技術應用的過程當中,第一個思考方向就是怎麼能夠把技術用到我們已有的使用者量比較大的產品上,並且能夠讓技術本身在這個產品上帶來一個產品創新。因為雖然我們是技術基因,但是我們是產品導向的公司。幾年之前我們做語音的時候,當時語音的識別準確率還沒有那麼高,我們就會想有沒有可能在輸入法上做出一個純語音互動的產品來,當語音輸入出錯以後,能不能通過語音去進行編輯修改。當我們把語音識別做得更準,能夠有條件來支援這樣的產品的時候,我們也是在業內第一家推出這樣的功能。包括我們現在做的對話也好,語音理解也好,也是在積極的想怎麼能夠在輸入法或是搜尋當中,更多地把這種技術加進去,提升使用者在這個主路徑上的產品體驗。搜尋,未來的方向是問答,就是怎麼能夠把問答跟對話的技術放到搜尋這種核心上去;而輸入法這塊,我們目前提的是叫輔助對話,怎麼能夠在大量的日常聊天對話當中,輸入法給你合適的侯選,幫助你去進行輸入,幫助你去進行表達,這都是我們的對話技術在當前產品上的應用。而我們優勢就是我們有大量的使用者,我們可能隨隨便便一個功能,每天有上億次的請求量,像這種高頻的使用者場景跟技術結合起來,就能夠更好地推動技術迭代,讓技術真的在產品中落地,並且給使用者帶來價值。

AI 前線:相當於也是在搜尋引擎的基礎上去開發更多應用?

W:就是語義理解的技術,就是根據你的上文,我來理解你的意圖是什麼,下面給你對應的答案,它有可能是涉及日常聊天的,有可能是涉及知識的。

AI 前線:您剛提到的這幾項功能,現在的成熟度怎麼樣?

W:如果站在傳統的角度上來看,不管是搜尋也好,還是輸入法也好,還是很多其他產品也好,一定是相對成熟的了,但是如果我們放在一個新的 AI 大背景下,比如搜尋在 AI 的形態下就是問答,而輸入法在 AI 的形態下我們希望去替代人去打字,替代人去對話,距離成熟還有很長的路要走。

AI 前線:您曾經說過語音互動的三個剛需場景是車內、客廳和戶外,搜狗在這三個場景都有哪些最新的佈局和進展?

A:我們在車內呢,是做了一個智慧副駕,智慧副駕更多的是解決怎麼能夠通過更好的語音互動來完成導航,這個我們是作為一個 to C 的產品釋出的,相當於它是搜狗地圖的一個版本,更多的面向車載這樣一個場景,把語音作為一個更重要的互動手段,而不像以前那樣使用文字和搜尋。To B 產品這塊,我們已經跟一些廠商建立了合作,2018 年就可以看到搭載搜狗能力的一些產品出來。客廳場景,我們去年是釋出了糖貓在家這樣一個產品。 戶外這塊,目前的核心就是面向翻譯這個領域。

搜狗如何看目前智慧語音行業

AI 前線:您怎麼看待智慧語音行業的市場規模?

W:我很難給出一個確切的數字,因為現在大家統計這件事的口徑也不一樣。如果只是針對 to B 市場,可能是千億或者萬億的一個規模。但是如果後面把 to C 市場拿進來,也就是說是不是把智慧語音看成是未來搜尋的一箇中控,如果把它看成一箇中控,那麼未來它包含的應該是個更大的市場規模。所以現在哪一家給出來的資料應該都不是一個很科學的資料。

AI 前線:目前智慧語音技術競爭和產品競爭的格局如何?

W:技術競爭這一塊,我認為是相對比較充分的競爭,因為這一波人工智慧技術的興起更多的是靠三個東西,一個是深度學習,一個是大量的資料,另外一個就是計算裝置的能力。而這三個模組本身來講,技術和計算能力對於各家來講都是開放的,深度學習最初是學術界提出來,然後再滲透到產業界,產業界再跟進,跟進以後加上自己的資料產生好的效果。現在反觀學術界,已經不再做語音識別了,或者已經不再做這種相對偏工業級的語音識別了,因為他們沒有資料。既然深度學習已經變成了主流,而大家對於深度學習的使用仍然處在相對初期的一個狀態,所以說在技術這塊,並沒有說誰家的技術就一定比誰家的技術有個很強的壁壘。語音未來會變成一個更加像空氣和水這樣的基礎性的技術。

產品競爭,兩個方向去看,第一個方向就是,如果是 toB 類的行業產品,那麼這種競爭更多的是看你在這個行業當中生根的時間,你在行業建立起的行業壁壘。我們再來看偏和消費者領域結合的,不管是車內的,還是音響這樣的產品,最終它其實會變成一個集團式作戰的一個整體的競爭,就是你只有語音技術是不夠的,你要有內容,甚至你要有產品前端,這也是為什麼現在人工智慧公司都要去做硬體,很多像小米這樣的硬體公司都要去做人工智慧技術,都要去做自己的內容,其實是一個道理。

AI 前線:搜狗在智慧語音方面有哪些優勢和劣勢?

W:我們的優勢就是,第一,我們的使用者量確實更大一些,然後從語料的獲得上,資源的切入上,我們肯定都會更有優勢,同時我們又是一個有很多流量的一個平臺,從搜尋,到輸入法,再到瀏覽器上的各種流量。有流量以後,做偏智慧語音這方面的硬體的時候也會有很好的銷售能力,比如像我們的糖貓手錶,2017 年大概是突破百萬的這樣一個銷量。但是在 to B 方面,因為我們本身不是做 to B 的公司,我們在這方面還需要積累。

AI 前線:做產品實際上需要大量的資料,搜狗現在的語音資料是什麼量級?

W:我們語音資料已經標註的量級,就是在萬這樣一個量級,大幾萬,或者十萬左右這樣一個量級,然後每天能夠新增大概是不到 30 萬個小時,這樣的一個規模。而現在行業主流的,大家的訓練資料基本上是萬這樣一個量級,所以現在不是去解決資料量的問題,而是資料量怎麼能夠用起來的問題,這是第一點。第二點,去解決當很多場景下你沒有資料,你怎麼能夠在這個場景下去做到一個更好的效果,就像剛才說的聽寫這個產品,我們之前沒有上線,那麼我們可能在對應的這個場景下效果就沒有那麼好。那我們怎麼能夠去解決更多的沒有場景資料的問題,這個是未來大家面臨的核心問題。

AI 前線:用什麼方式去解決呢?

W:還是技術問題,因為技術做得不夠好,導致現在太依賴資料,現在我們所說的這種人工智慧就是大資料加上深度學習的技術,但是一旦你缺少資料,就不會有好的效果。現在我們語音識別什麼領域做得好?就是資料充分的領域,我們日常的對話,手機這種相對標準的場景,資料自然是最多的。但是一旦切換到一個新的場景,那麼這個新的細分場景,資料就會變少,效果就會變差。但是如果技術足夠的好,能夠去彌補資料這塊的問題,最終就能夠去解決語音在全方位各場景落地的問題。

多款重磅翻譯產品落地之際,我們獨家專訪了搜狗語音負責人王硯峰

搜狗為什麼不做智慧音響?

AI 前線:現在市面上比較有代表性的幾個智慧音響,您是怎麼看他們的切入點和前景的?

W:首先大家都相信語音是下一代搜尋的入口,通過語音,然後把語音變成一個完整的服務,把內容提供給你,這也是為什麼大家都在投巨量的成本在裡面的原因。但是不管怎麼樣,現階段的產品都是不好使的,只能是定個鬧鐘,查詢個天氣,這種最簡單的操作。大家定義的是一種未來的場景,因為我們現在的場景是在手機上,是通過搜尋,是通過各家的 APP 來滿足你的服務,而且現在挺好的。而你要去做一個更好的,更有科技感的服務,並且能夠通過語音的入口來替代手機,這是一個未來的產品,不是一個現階段的產品。那麼未來的產品到底是什麼樣的,現在還是個問號,大方向是可以的,但是切入點到底是不是應該是音響,包括前景怎麼樣,是否還是這幾家公司存活到最後,我相信最終是有特別大的一個變數的。

AI 前線:現在聊天機器人也很火,你們有興趣嗎?

W:確實它更容易去博得一些眼球,因為相對比較有意思,也確實像小冰這樣的產品,會處在相對顯得比較明星的這樣一個形象。但是呢,為什麼會這麼重視聊天機器人,我個人的看法,它可能更多的是“人工智慧”這四個字本身的原罪。就是當你說人工智慧的時候,你頭腦當中的第一個印象並不是說這個機器能用怎樣的計算能力完成一件機器該做的事,你第一個想到是這個機器像人。所以我一直更喜歡 Google 的吳軍老師對於這件事的定義,他覺得我們這一波智慧叫機器智慧,不叫人工智慧,就是讓機器通過計算能力,通過大資料,通過機器特有的方式,讓它變得更聰明,更能夠預測你的行為,更能夠幫助你去解決問題。但當我們把它定義成人工智慧的時候,我們更希望機器表現的像人一樣。最像人的是什麼呢?就是聊天,就是這種情感類的東西,只有人是帶情感的,機器是不帶情感的,這也是為什麼人們一提起人工智慧,就覺得聊天,或者情感是人工智慧裡面更有趣的。

AI 前線:似乎人們對這種更像人的機器人天生有一種情節。

W:雖然我們看到平臺上很多都是聊天資料,使用者時不時與機器人互動。但是從未來大方向上來講,聊天機器人不是一個產品。我需要的產品到底是什麼?是陪伴。而陪伴的話,只有聊天能夠做陪伴嗎?我們現在市面上所有的產品,都是說我來當你的祕書,同時呢,你還可以跟我對話聊天。但是,當這個祕書是幫你去打理你生活當中的各種事的時候,你是否還真的需要跟它聊天? 當你真的無聊的時候你會去打遊戲,會去和朋友吃個飯。只是現階段使用者處於新鮮感中,還沒有見過這樣的東西,所以想去嘗試與機器人互動。

搜狗未來的人工智慧之路怎麼走

AI 前線:現在人工智慧領域的企業競爭越來越激烈了,搜狗打算怎樣應對?

W:分三點來看。第一點就是我們之所以能夠被大家認可,第一就是持續在技術上投入,去佔據技術的制高點,保持技術的一個階段性的領先。我們需要堅持這樣一個理念,人工智慧的核心是技術,如果沒有這樣一個核心,是不能夠支撐你各個產品和業務的。雖然像我之前說的,技術構不成一個絕對的壁壘,但是如果你的技術更好,有—年,半年的領先,那麼你就會有個不錯的視窗期,你可以在視窗期內產生出更好的產品。

第二點就是我們能夠堅定地去跟我們現階段的有使用者規模的產品和場景去聯動,能夠在這裡面去迭代人工智慧的產品和技術,比如像我剛才說的在輸入法當中,怎麼能把輸入法變成一個智慧對話,或者哪怕是一個輔助的對話。如果真的拿下輸入法這個場景,它將是中國最大的一個場景,每天使用者所有的聊天都是通過輸入法來進行的,所有的資訊的產品也都是通過輸入法來進行的,我們希望能夠利用好輸入法跟搜尋這兩大產品。

然後第三點,還是堅持產品導向。只有好的產品,才有長久的生命力。我們希望做出來的產品,並不是一個冷冰冰的產品放在那,僅僅侷限在聊天就足夠了,我們還是希望做出一個產品,使用者每天都能夠用,每天都能夠帶來價值的。

AI 前線:對現在的搜狗輸入法有什麼不夠滿意的地方?

W:輸入法還沒有做成一個特別聰明的輸入法,從輸入效率上來講,它確實是比上一代輸入法要強很多,但是它還沒有聰明到讓你輸入特別快。現在輸入法輸的快慢,仍然取決於你的手速。我們能不能做特別好的預測,聯想功能,能夠讓那些手速特別慢的使用者,很少需要去敲拼音鍵,而直接通過聯想去完成輸入,我們仍然需要去努力。

還有就是,大家現在對於輸入法的認知仍然是一個輸入工具,那麼我們究竟什麼時候能夠把輸入法從一個工具變成一個服務,因為你確實是掌握大量的使用者資訊的一個入口,當你能夠把工具變成服務的時候,輸入法的商業價值就會有一個極大的發揮。

AI 前線:您最近還關注哪些大的技術方向?

W:我現在也會開始關注影像這一塊,因為不管是做業務也好,還是做產品的過程當中,能夠很明確的感受到,一個完整的產品,如果只有語音能力的話,是不夠的。比如糖貓在家這樣的產品,我們是把它定義成一個家庭的陪伴機器人,基本上能夠去滿足你任何時候你想看看家裡面什麼樣,想看看小孩在幹嗎,可以隨時接入視訊通話的這樣一個功能,首先它是在滿足使用者剛需的一個功能,那麼在這個功能之下,它能不能做的更智慧,能不能做得更有趣,在更有趣和更智慧這個方向上,兩個方向延伸出來,就是語音的對話夠不夠好,另外一個影像,這傢伙是長了一隻眼睛的,它是盯著家裡的情況,盯著小孩的情況,比如這個小孩有沒有有意思的一個瞬間,它能捕捉到,拍下來發給你,小孩是不是摔倒了,捕捉到了以後,馬上開始哇哇叫,你家孩子摔倒了。像這樣的產品,只有語音是不夠的,它需要好的影像能力,包括我們現在的車載產品,那麼車載產品除了大家現在都談的功能,自動駕駛,輔助駕駛功能還有好多在視覺上可以去做的事,這個全都是影像的領域,所以現在我們也在看影像這塊怎麼更好的嵌入進去。

更多幹貨內容,可關注AI前線,ID:ai-front,後臺回覆「AI」、「TF」、「大資料」可獲得《AI前線》系列PDF迷你書和技能圖譜。

相關文章