Vista 作業系統用了她的語音技術,現在她要幫助更多企業實現智慧化

TGO鯤鵬會發表於2018-11-18

本文由 「TGO鯤鵬會」原創,原文連結Vista 作業系統用了她的語音技術,現在她要幫助更多企業實現智慧化

初敏,思必馳 VP 、思必馳北京研發院負責人,中科院聲學所博士,智慧語音互動領域專家。初敏在微軟亞洲研究院負責研發的雙語語音合成系統木蘭成功應用在 Vista 作業系統中,之後,她在阿里雲和阿里媽媽負責過機器翻譯、輸入法、使用者畫像等專案。2017 年 8 月,初敏從阿里 iDST 離職加入思必馳,開始組建思必馳北京研發院,致力於將規模化的人工智慧成果帶給更多企業。

Vista 作業系統用了她的語音技術,現在她要幫助更多企業實現智慧化

作者 | 趙新龍

策劃 | 劉海星

微軟亞洲研究院的木蘭媽媽

2000 年,初敏成為微軟亞洲研究院的第一位女性研究員,也是第一位 TTS( text-to-speech ,文字轉語音)研究者。TTS 專家、微軟高階研究員 Scott Meredith 在介紹初敏時,總要加上 “ She is the mother of Mulan TTS system ”(她是 TTS 系統木蘭之母)。初敏欣然接受了“木蘭媽媽”的稱呼。

2008 年,微軟亞洲研究院成立 10 週年之際,《微軟的夢工廠》一書正式出版,其中初敏所寫文章的題目就是《木蘭媽媽》。2017 年 6 月,初敏受邀到母校西北工業大學做演講,學校官方新聞稿也採用了這個稱呼。

“木蘭”到底是什麼?又是怎麼來的?

“越來越多的中文文章中會雜糅有英文內容……最典型的解決方案就是在後臺架起兩個系統,一個專門處理中文,一個專門處理英文。遇到中英文混雜的句子,就將中文部分分割出來送給中文系統,英文部分則送給英文系統,然後將兩者的輸出合併起來返回給使用者。這樣做的最大缺陷在於分開處理的兩種語言缺乏統一的語調、語氣,甚至連聲音本身都差別很大。結果聽上去時斷時續,極為不連貫。可懂度(能聽懂)和自然度(聽起來舒服)都比較差。我們當時花了很多精力去物色一箇中英文都比較強的播音員,為我們的語音系統錄音,這樣就可以保證語音資料庫中的雙語聲音是一致的。另外我們還將中英文的處理能力融合在一個系統中,有統一的韻律控制,這樣生成的語句即便包含兩種語言,也能有統一的語調和節律,就像一個能講雙語的人講出來的話。這個雙語語音合成系統在可懂度與自然度上都取得了較好的效果。我們將這個系統命名為木蘭。”

2003 年,微軟亞洲研究院成立五週年的慶祝活動中,木蘭名列“十大”成果之一。現任微軟亞洲研究院副院長張益肇曾撰文提到一個小插曲:“2001 年,研究院第一年向蓋茨彙報中文語音合成技術的成果,語音的自然度和流暢感與傳統技術比起來要進步很多。蓋茨聽了彙報之後感覺一切都還不錯,但是他搖搖頭非常惋惜地說:‘很可惜,我聽不懂中文。’”

別囉嗦,直接解決問題

2009 年,初敏離開微軟亞洲研究院,加入阿里巴巴。初敏依舊記得新員工培訓的情形。“滿屋子都是新員工”,馬雲親自進行培訓,“他說:‘我請你們來,不是讓你們看我身上有多少問題的。我知道我身上有很多問題,那又怎樣?我請你們來,是要你告訴我,你能解決哪個問題’。我當時就覺得非常認同,真的,這個理念是我堅信的。”這個信念也體現在初敏之後的行事風格中。

講到這裡,仰靠著沙發的初敏伸手拿起茶几上的礦泉水瓶,說道:“比如這杯水放得不好,你覺得放在哪裡合適,你就直接放過去。如果沒人阻攔你,你就直接做。如果別人告訴你不對,你就再想一想是不是自己理解得不到位。”然後她把水瓶重新放在了茶几另一端,繼續說道,“我們要的不是囉嗦,說什麼把水放那裡很不好、會有什麼問題之類的 —— 停留在說的層面問題還是沒有解決,行動力才是關鍵。這是我現在做事情的觀點和態度。”

性格直來直去的初敏,曾在阿里雲和阿里媽媽負責機器翻譯、輸入法、使用者畫像等專案。離職前,初敏是阿里雲 iDST 智慧語音互動團隊的總監,這個團隊是她從頭組建的,將近三年的時間已經發展到七八十人的團隊,支撐了阿里集團和螞蟻金服的各種語音需求,同時還將技術通過阿里雲平臺對外輸出。iDST 最早掛在阿里巴巴集團技術委員會主席王堅博士名下,王堅曾任阿里集團 CTO 、阿里雲總裁、阿里雲 CTO 等職。“ iDST 要做阿里其他部門不願做也做不了的事情。”這是王堅對 iDST 的角色定位。

談到離開阿里巴巴和加入思必馳,初敏表示,當時自己對語音互動的產業化有很多思考和想法,需要有定點深耕的空間。正好有機會和思必馳的創始人高始興、首席科學家俞凱聊到了一起。初敏和俞凱是老朋友,溝通之後對思必馳的未來規劃很感興趣,覺得跟自己定點深耕的想法很吻合,“我的加入可以幫助思必馳更快地成長”,所以就選擇加入思必馳。
從中科院聲學所,到微軟亞洲研究院,再到阿里巴巴,初敏經歷的都是人數多、規模大的單位。大企業的優勢在於平臺大和資源多:企業本身就是巨大的資源,企業能夠提供的資源也相當多。在微軟亞洲研究院,初敏曾經“很奢侈地擁有過一個專門的錄音室”,可以隨心所欲的進行各種實驗。這些實驗的成果也是木蘭高音質的重要保障。

同時,每一個大企業都是一張很大的棋盤,每個人都是棋盤裡的棋子 —— 甚至一個團隊、一個部門都只是一個棋子。“如果你的心態是,把你放在棋盤什麼位置,你就在那幹,這樣在大企業容易有很好的發展。如果你特別有執念,比如說想按照自己的意願做成什麼事情,在這樣的企業會很難。”初敏就有這樣的執念。談到加入思必馳的初衷,初敏表示“我還是偏愛技術的,願意做一些技術驅動的產品。”

既然如此,為什麼不去創立一家新公司?

初敏哈哈大笑:“我懶嘛。我覺得創業很辛苦,早期創業從 0 到 1 的過程裡,技術佔的比例太小了,不是我願意乾的。那部分不是我感興趣的,我感興趣的是人機互動。我真的相信,人機互動在未來一定會廣泛應用起來。剩下的問題就是,誰做出來?”

初敏背靠沙發,坦然說道:“很多人不願意當那個被擺來擺去的棋子,而是想在一個方向扎進去。”

這種執拗勁頭 —— 也可以說是反叛精神,可能源於壓抑已久的內心吧。
初敏本科就讀於西北工業大學,研究生保送到哈爾濱工程大學。西北工業大學在 1970 年將中國人民解放軍軍事工程學院空軍工程系整體併入,哈爾濱工程大學的前身是中國人民解放軍軍事工程學院(哈軍工),二者現在是歸工業和資訊化部管轄的七所高校之二,而一般高校大多歸教育部管轄。初敏就讀博士的中科院聲學所始建於 1964 年,屬於事業單位。

初敏接受高等教育的三所學校充滿強烈的國防軍工色彩和體制內意味,“我有好多同學在航天的研究所,航天二院、三院、五院都不少。有一部分出來做企業的研究,留下的現在發展得都很好。”昔日同窗現在身處不同領域,都已經成為各自行業領軍人物。

Vista 作業系統用了她的語音技術,現在她要幫助更多企業實現智慧化

Business 上的成功才是我感興趣的,而不僅僅是技術的研發

在 2008 年的一段文字中,初敏這樣寫到,“有一次,他(麻省理工學院教授 Victor Zue ,語音專家)來研究院訪問時,對我們提過這樣一個問題:如果將你在研究中所使用的資料量,乘上一百或者一千倍,同樣的問題還能用同樣的方法來解決嗎?”

而乘上一百或者一千倍,問題就由學術屆跨越到工業界了。

乘百和乘千的問題,是初敏現在關注的焦點之一。在交談中,初敏時不時應用英文單詞來描述,頻率最高的三個詞分別為 scale up(擴大生產)、production(規模化生產)、business(業務)。

初敏坦言,“現在我並不想做單純的研究。你舉辦個比賽,大家做些訓練 —— 玩一玩是可以的,我也不反對團隊參加。但那絕不是能否成就我們事業的決定因素。”要做成業務,一定要能規模化生產。“你能做一個很漂亮的 demo ,可是沒有辦法複製一萬份 —— 複製成本很高,那最終就不可能成為 business 。今天我很在乎 production 和 scale up ,這才是 business ,這是我現在的關注點。”

與思必馳的技術優勢和目前業務相結合,初敏博士想要把自己在語音方面的成果低成本快速度地複製上萬份。

思必馳於 2007 年在英國劍橋高新區成立,2008 年回國落戶蘇州。思必馳創始人兼 CEO 高始興畢業於劍橋大學商學院,擁有計算機和管理雙碩士學位;聯合創始人兼首席科學家俞凱是劍橋大學語音博士。思必馳的傳統強項是智慧家居、智慧車載和機器人 / 玩具。智慧音響天貓精靈 X1 就採用了思必馳環形 6 麥陣列技術,覆蓋語音識別、語音合成、演算法降噪等,在 2017 天貓雙“雙 11 ”全球狂歡節暢銷 100 萬臺。

在傳統優勢之外,思必馳也在尋求轉變和擴張。2017 年 9 月,思必馳正式釋出全鏈路智慧對話開放平臺 DUI ,為開發者提供全方位的語音互動技術支援。而初敏負責建立的北京研發院,則是要助力企業搭上人工智慧的列車,把業務從個人智慧服務擴充套件到企業智慧服務。

人工智慧在企業的落地一定是要跟行業緊密結合的,除了語音和對話,更需要知識源和資料來源。目前大部分消費級人工智慧產品都是簽署第三方合作伙伴,比如音樂資料合作伙伴、天氣資料合作伙伴。

在無法逆轉的這個趨勢下,初敏認為,當下最重要的是把語音入口做好,把距離、噪聲等對語音質量的影響降低,能夠順利地把語音收進來,將其識別成文字,把對話做起來。

核心還是人才,要研發而不僅是研究

1998 年 11 月微軟中國研究院(三年後更名為微軟亞洲研究院)在北京宣佈成立,李開復任首任院長。從成立之初起,微軟亞洲研究院就奉行不打卡不考勤的策略。對此,初敏表示“凡是招來的都是想成事兒的人,不用管理,他們自己就有驅動力去不斷追求更高目標和不斷挑戰自己。我在微軟的時候也很努力的。沒有人要求加班,可是你會給自己不斷地找事。”

這樣的人才觀也直接體現在初敏負責的招聘中。受命組建思必馳北京研發院的初敏,當前面臨的首要問題就是招聘,“我只招聘主動的人。你覺得該加班,你加班;你覺得不需要,你就別加班。招人就要招這樣的,不需要看著他,他有做事情的意願,能夠自燃。我也恨考勤什麼的 —— 這都不適合搞技術的。搞技術的人對技術工作是有熱情的。”

“所以我只需要問他們,你告訴我啥時候做完?沒時間點的事都是不會發生的 —— 這是絕對化的。絕對化是要表明我們的觀點:所有沒有時間點的事情,我都認為是不對的。明天要交貨了,你說對不起我做不出來,這永遠是錯誤,無論如何都不對。”

從阿里離職的初敏現在的職位是思必馳副總裁、思必馳北京研發院院長。思必馳成立的北京團隊,不是所謂的研究院,而是研發院。對此,初敏表示,“我們不是研究機構,只是包含研究成分。我們肯定會做核心技術,把語音和互動前沿技術做起來,這是為了保證技術領先。但是更重要的是,我們要做產品,支撐行業應用和規模化生產。”

2017 年 8 月,思必馳北京研發院開始籌建,目前有不少語音互動方向的人才加入,一年內預計達到近百人的規模。肩負著思必馳企業智慧服務重任的北京研發院,已經在合作伙伴擴充、企業場景對接方面邁出著堅定的步伐。

有多少人工,才有多少智慧,這叫人工智慧

人工智慧是 2017 年最火熱的風口。智慧語音行業的老兵初敏對此看得很淡,“就是媒體在炒,根本不是我們技術人員搞成這樣的。對我來講沒多大不同。”

風口之下,對人工智慧未來的欣喜中夾雜著擔憂,比如以埃隆 · 馬斯克為代表的科技大佬一直在宣傳警惕人工智慧的觀點。從業二十多年的初敏對於人工智慧威脅論的態度是嗤之以鼻。

“我的態度非常鮮明。你準備好資料,它才能學 —— 你不把資料灌進去,他學什麼?所謂的深度學習,就算是強化學習,也都是有邊界問題,開放問題它學不了。比如下圍棋,格子是人畫的。什麼叫輸贏?圍棋的規矩是人定的。不是說你丟一堆資料,搞一堆機器,它自己就能造出人工智慧。出不來的!我經常開玩笑,有多少人工,才有多少智慧,這叫人工智慧。人來定義問題,定義規則,甚至要提供可學習的資料,機器(學習演算法)能在給定的空間和資料中學習到存在的規律。在學習規律方面,機器早已超過人了。但在理解世界的本質、定義問題方面,還是離不開人的。當然,機器總是在領域專家的指導下學習的,然後把學到的能力用來服務普通大眾。這也是我們致力於把人工智慧技術產業化的動力。”

而被問到在企業追趕人工智慧熱潮方面有哪些建議時,初敏表示“對企業而言,要真正理解自己的業務有什麼問題,看看人工智慧如何幫助解決問題。”

這個問題背後還有一個原因就是,任何一家中小公司都難以依靠單一業務擔負研發成本:語音系統很貴,人貴、資料貴、機器貴。“思必馳專注做這個事情,一定要支援很多客戶,裝置可以重複利用,這樣所有的成本才能攤薄。這裡的核心是規模化。”

這一切,又回到了前面提到過的 production 、business 和 scale up 。要做的是可以低成本複製一萬份的事業,那就意味著一刀切地拒絕定製化專案 —— 即使後者離錢更近,“比如籤個 500 萬的單子,我派五個人的團隊駐場半年。這種事能掙到錢,但不能規模化生產。我們要從根本上解決這個問題。”規模化生產,這是加入思必馳三個月的初敏要持續面對的難題。

思必馳北京研發院將要從事的企業智慧服務,是一條尚未有成功範例的荒蕪領地。如何克服重重困難,初敏信心十足:“我在這個方向上思考了很多,具體要怎麼做,可能真沒多少人比我想得更透徹。我們做到的一定不是市面上隨處可以看到的那種水準。隨便找個第三方廠家都差不多的水平,對我沒有意義,我也犯不上在這裡折騰。”

微軟亞洲研究院,9 年,木蘭系統天下知;阿里巴巴,8 年,擴充研究方向最終迴歸語音;思必馳的企業智慧服務規模化,初敏需要多少年?

End

更多幹貨內容,可關注TGO鯤鵬會,ID:egonetworks,現在關注即可免費獲得「 CTO 技能圖譜 」一份!

相關文章