在 AI 創業的好時代,初敏結束 8 年阿里生涯加入思必馳

微胖發表於2017-08-28

撰文 | 王藝

編輯 | 劉燕

機器之心獲悉,初敏已於一週前正式加入思必馳,任思必馳北京研發院院長。

 

從大公司加入創業公司的人工智慧專家,初敏不是第一個。她說:「做研究的人是有心結的,他們希望自己做的東西有影響力,而不是僅僅停留在紙上。」

 

和大部分國內早期從事語音方向的研究人員一樣,初敏博士畢業於中科院聲學所,後加入微軟,一呆就是十年。在微軟的最後兩年,初敏轉到王堅組下。2008 年,王堅加入阿里巴巴,一年後,初敏也來到了阿里。彼時,以現在的體量回望,阿里還處在爆發的前夜。初敏表示,加入阿里,與王堅博士「很有一定關係」。

 

一個月前,初敏從工作了 8 年的阿里巴巴離開。離開時,她的職位是 iDST 語音團隊負責人。業界紛紛猜測她的去向,這位聲音爽朗有力的女性,曾帶領團隊向阿里巴巴各條業務線輸送語音相關技術,從識別、合成,到理解、互動。不僅如此,十年前在微軟亞洲研究院工作時,初敏的團隊就曾促成微軟唯一一個完全放在中國運營的業務——語音合成「木蘭專案」。要知道,微軟曾經在美國曾啟動過語音合成相關技術的研究,但因成效不佳轉而選擇使用第三方的合成技術。正是由於初敏團隊效果喜人,微軟才決定自研。

 

曾經的工作成果代表初敏的實力,作為研究者、領導者,她會為自己的「後阿里時代」選擇一條怎樣的線路?如她自己所說,她在哪裡工作,都挺長久的。

 

初敏正忙於組建團隊,她表示,將大量招收語音方面的人才,爭取在一年之內組建一個 50 人左右的從基礎研究到應用落地的「研發」團隊,為思必馳擴充新的業務路線。

 

思必馳於 2007 年成立於英國劍橋高新區,創始人均來自劍橋,2008 年回國落戶蘇州;是國內唯一擁有人機對話技術,國際上極少數擁有自主產權、中英文綜合語音技術(語音識別、語音合成、自然語言理解、智慧互動決策、聲紋識別、性別及年齡識別、情緒識別等)的公司之一,其語音識別、聲紋識別、口語對話系統等技術曾經多次在美國國家標準局、美國國防部、國際研究機構評測中奪得冠軍。

 

2012 年,思必馳獲得聯想之星、啟迪等數千萬投資。 2016 年,思必馳獲得來自阿里巴巴的近 2 億元人民幣 B 輪融資,時隔半年完成鉅額 C 輪投資,目前估值數十億人民幣。其主要產品 DUI 是思必馳於 2016 年底封閉開發的一站式語音對話定製平臺,意在將其語音技術賦能開發者,同時對平臺上的優秀開發者及上下游內容供應商提供基金和補貼支援,營造人工智慧良性生態圈。據悉,思必馳 DUI 平臺將於 9 月 7 日北京正式釋出。

 在 AI 創業的好時代,初敏結束 8 年阿里生涯加入思必馳

在初敏加入思必馳的第五天,機器之能對她進行了專訪,與她就加入思必馳的故事、對語音技術的解讀展開探討,以下為未改變原意的採訪內容整理:


過去,你的經驗主要集中在巨頭公司,決定加入思必馳這樣的創業型公司,背後有哪些考慮?

 

其實我一直都很嚮往我的研究能夠實實在在被人們使用,這從我換公司的路線就看得出來,一步步地向產業落地靠近。最開始在微軟的時候我們的生活是很單純的,就是做研究。當時每年的計劃都是自己定的,瞄著哪幾個會議、做哪幾個題目。其實微軟亞洲研究院在微軟內部已經是非常重視產品落地的部門了,但和阿里比還差很多。

 

我到阿里之後發現,這家公司特別的接地氣,回頭再看微軟,真的是一個非常漂亮的象牙塔。後來阿里爆發式發展,變成了如今的科技巨頭。

 

現在業內能夠看到,未來的 3-5 年,對這一次人工智慧熱潮來說是一個非常重要的視窗。拼的是整體效率,這裡包含技術本身也包含場景落地。從技術,到應用,到落地場景,再到資料與體驗的反饋,這個圓環誰轉得快,誰就能贏。思必馳是以語音技術為生的公司,成敗都在語音。這一點和阿里不一樣,阿里不靠語音為生,語音只是個錦上添花的東西。

 

市場上語音創業公司不止思必馳一家,為何選擇思必馳?

 

坦白說,確實有很多大公司都在聯絡我,也曾考慮過,但最終還是覺得思必馳更契合。市場上語音公司很多,但大家的切入點和細節還是不太一樣。雖然所有人都在說,相信語音技術能夠為人類的生活帶來根本性的改變。但從大家做的事情上,大概能夠察覺到各家的心思放在什麼方面。思必馳是比較堅定的做語音互動的公司,他們真的認為語音互動很重要,目標就是要做好互動技術,再以平臺的形式對外開放,讓本身不是這個領域的公司也具備語音互動能力。這一點來說我跟老高(思必馳創始人兼 CEO 高始興)還有俞凱交流得比較深,發現大家在這件事上有很多共鳴,對未來的看法也很一致,這在我看來是非常重要的。如果說幾個人都很能幹,但想法不一致的話,真正做起事情會比較困難。

 

另外,我看到思必馳有一個很好的搭檔,就是俞凱老師在交大的實驗室。公司本身和這個實驗室有著非常緊密的合作,這意味著從研究層面有源源不斷的刺激。雖然業內也有很多家成立了聯合實驗室,但就我觀察來看,只有起步階段的科大訊飛和現在的思必馳是在以這樣緊密的方式進行高校合作的。

加入思必馳之後你的工作會集中在哪些方面?

 

因為思必馳總部在蘇州,北京辦公室只有幾十個人,而且幾乎沒有從事底層研發的核心技術人員。但是北京又是人才的聚集地,所以思必馳計劃在北京成立一個研發中心,我來做院長。我是非常重視應用的人,所以成立的是研發中心,不是研究中心。這個團隊會包含從底層技術的研究,到產品設計再到產品的實施各個環節,包括最後一公里的最 Dirty 的工作都有會由這個團隊協力完成。我們會重點專注做新場景和新技術的落地。同時,我們也會精進語音、語言、深度學習相關的底層技術。我們期盼著在一年內招到 50 人,兩年內招到 100 人左右,最終讓整個團隊配合完成整個應用場景的打通。

語音是和硬體強關聯的學科,要想真正讓技術得到落地的話,單單提供 API 是不夠的,但思必馳的產品是一個平臺,這一點你怎麼看?

 

確實,現在的語音環境還遠遠不能達到像網頁時代,你註冊個網頁自己回家就能「玩得溜轉」,大規模部署的階段。這件事我跟俞凱也是有共識的。在現在這個市場環境下,落地這件事情確實是需要專業語音公司到客戶方去幫助個性化定製以及部署的。所以前期我們會有一些技術支援人員為客戶服務。後期我們計劃打造一個生態系統,通過合作、培訓的方式來向外輻射語音技術落地的能力。前段時間思必馳、上海交大和蘇州市政府聯合成立了一個人工智慧研究院,就是為了搭建一個平臺,吸引更多相關的企業和團隊參與。這樣一來,思必馳就能專心推動語音互動這件事情。

你想為思必馳帶來怎樣的改變?比如思必馳在技術架構等方面是否存在需要進行調整的地方?

 

我覺得思必馳已經走過了很艱難的創業階段,接下來會進入發展階段。在以後的快速成長中,會遇到很多 Growing Pain(成長痛)。從思想認知維度、到技術、方方面面,可能會有人跟不上。發展得越快,這個成長痛就會越強烈。

 

技術架構方面,其實任何一個東西在成長過程中都是不完美的,當時可能會因為各種各樣的原因最終沒有在每一步都做出最完美的決策。那在接下來的發展過程中,發現哪一個點阻礙了專案的繼續進行,就處理哪個點就好了。如果沒有阻礙到專案進展的話,雖然發現有些地方是不完美的,我也不會太糾結於此,等它阻礙了專案或者自動退休就好。我們做專案是有目標的,要完成專案結果,而不是把系統變完美。目前,從我的經驗角度,我沒有看到思必馳的系統有任何嚴重的問題,但是我相信,經過時間的推移,一定會被我翻出問題來的。我這個人做事很嚴格的,如果我發現有一個阻礙專案進展的問題沒有得到解決,就算負責人不是我手下的人,我也會不停地推進他讓他處理掉。


在語音行業,一些入局較晚的新公司,與科大訊飛這樣做了 18 年的公司相比,技術積累方面會稍顯被動嗎?

其實技術層面都差不多,說實話,十年前的技術都淘汰掉了,剩下都是最新的技術。但是在資料層面會有差距,雖然每個公司都在蒐集自己的資料,但是科大訊飛資料收集的維度比較寬,覆蓋面廣。一般來說像 BAT 在自己著重突破的方向上,跟科大訊飛不相上下,但是科大訊飛做得比較全,覆蓋的行業多。就思必馳而言,多年專注在智慧硬體/物聯網領域,在家居、車載等實際應用場景中積累了大量資料,更有針對性,實用性也更強。

你認為現在語音行業正在面臨哪些問題?

首先識別層面雖然我不認為已經完全搞定了,但技術已經很好了,更多的是效率的問題,其實已經沒有什麼可以玩了。我覺得語言理解是一個很重要的問題,現在市面上不管哪個語音助手聊天機器人,你跟它聊幾分鐘你就知道它有多傻了,離真正的理解、對話、互動還差得遠,這裡有很多事情要做。

 

然後我覺得是系統場景適應的能力,現在不管是識別也好,理解也好,都只能在垂直領域進行訓練。你給醫院做的系統想要賣給法院用,這其中的轉化目前還很困難。這其中涉及到了技術和工程結合的能力,不能說換一個場景七八個月出不來結果,那一年你才能做幾個客戶?大家現在都在講遷移學習,但其實遷移學習本質上也需要新場景的資料來做模型調優,只是降低了資料的需求量。在未來,誰系統的場景適應能力強,在大規模工業化的時候就能取得先機,誰未來就有市場。

 

最後,我覺得現在非常缺少產品設計方面的人才。之前說人工智慧技術人員很欠缺,現在產品人員更欠缺。現在如果你想做一個人工智慧產品,如果你自己沒有技術,外接第三方的技術都能滿足。所以在這種情況下缺的是什麼樣的人呢?是能將各個技術的各個應用信手拈來的人,知道技術的侷限在哪裡,能夠揚長避短,以客戶的角度思考問題,設計產品的人。在 AI 創業的好時代,初敏結束 8 年阿里生涯加入思必馳

相關文章