一線 AI 洞察,智者深度思考
多模態能力的融合正在改寫 AI 發展路徑。語音、視覺與自然語言處理的邊界日益模糊,以 Transformer 為代表的通用解決方案,正在重塑傳統技術領域。
在這個技術正規化轉變的關鍵時期,那些長期深耕細分領域的研究者又在思考什麼?他們如何看待這種技術融合的趨勢?
本期《智者訪談》邀請到著名開源語音識別專案 Kaldi 的創始人、小米集團語音首席科學家 Daniel Povey 博士。作為推動全球智慧語音處理產業化的關鍵人物,他見證了語音識別技術從實驗室走向大規模應用的全過程。十多年前,他在微軟研究院的實習生,如今已成為 Google Gemini 等標誌性專案的負責人。
當整個行業都在追逐大模型和通用方法時,Povey 博士卻選擇專注於不那麼熱門,但更有潛力的方向。「有這麼多聰明人都在試圖改進 AI,那些容易被發現的方法早就已經被人發現了。」
在他看來,技術進步不應被某一主流正規化所限制,AI 領域的進步往往源於解決特定領域的具體問題,每個領域都應該保持自己獨特的視角和方法——也許語音領域的下一個解決方案,會給機器學習帶來全新的啟發。
Transformer 確實好,也確實可能是未來發展的方向,但如果所有人都只基於現有模型做改進,可能阻礙整個領域的根本性創新。在訪談中,Povey 博士還分享了技術創新的方向選擇、規模與效率的權衡,以及如何在緊跟前沿的同時保持獨立思考。
對於年輕一代的研究者,他的建議直白而務實:你必須誠實面對自己真正想要的。學 AI 就能年薪百萬的時代已經過去了,現在進入 AI 領域很難做出突破,除非你真的才華橫溢;很多時候,你職業生涯的最終目標,要麼很難實現,要麼實現了也沒有想象中那麼美好。
希望這番坦誠的對話,能為我們在 AI 發展的萬千可能性中,找到屬於自己的方向。
01:35 Kaldi 之後的新探索
02:51 語音成了神經網路的子領域
04:37 多模態:Transformer 大一統?為完整呈現觀點,本文在影片訪談基礎上補充了對兩個問題的討論。機器之心:Povey 博士,感謝您接受我們的採訪。我從 Kaldi 時起就關注您的工作,歡迎做客機器之心的《智者訪談》。Dan Povey:謝謝。不過說到 Kaldi,可能只是我運氣好,碰巧在對的時間做了對的事情。但我會繼續嘗試做其他重要的事情。機器之心:您太謙虛了。在當前的 AI 熱潮中,很多人追逐熱點、擴大規模,您似乎選擇了一條不同的道路,那就是關注小模型,致力於開發高效而實用的解決方案。今天我們將深入探討促使您做出這些選擇的技術洞見,以及您是如何在快速發展的浪潮中保持獨立思考的。首先,作為語音技術的先驅,您目前關注的重點是什麼?Dan Povey:語音技術正處於一個低谷期。如果你去參加語音會議,會發現人們對新的語音技術並不那麼興奮。這種情況以前也出現過,但這次可能是永久性的,因為語音識別確實已經做得很好了。現在大家對文字轉語音(TTS)更感興趣,最近幾年興起的流匹配(flow matching)方法簡單易懂,而且效果特別好,也很穩定,我很喜歡研究它們。我在小米的團隊正在轉向 TTS(文字轉語音)。一般來說,TTS 的速度要比語音識別慢,特別是在手機上執行的時候。我們希望開發一個既能在手機上快速執行,又能保持完美音質的 TTS 系統。機器之心:您如何看待您當前的工作與主流 AI 研究的關係?Dan Povey:現在語音已經成為 AI 的一個子領域,跟 AI 緊密相連。以前語音是一個獨立的領域,我們有自己的會議,而且地位跟神經網路一樣甚至更高,因為那時候神經網路還不怎麼管用。如今神經網路成了主流,我們不得不用他們的術語來描述我們以前就有的東西,比如我擅長的「判別式訓練」現在成了「序列訓練」。Dan Povey:其實我不是特別在意。我覺得挺有趣的。幾年前我去過一次 NeurIPS 會議(那時候還叫 NIPS)。我並不是很喜歡,因為那裡的人太緊張了,他們看起來特別興奮,像「打了腎上腺素」,但似乎並沒有真正享受其中。機器之心:您如何看待語音模態的發展,以及與多模態的融合?Dan Povey:當然,在一些應用場景中語音會被整合,但我認為獨立的語音識別系統仍然會繼續存在。我希望透過我們的研究,能找到對 AI 普遍有用的方法。我認為大多數 AI 進步都來自於解決某個特定領域的問題,可能是視覺,也可能是語言或語音,正因為要解決某個領域的具體問題,人們才想出了某種解決方案,而這種解決方案最終也可能適用於解決其他領域的問題。機器之心:Transformer 恰好就是如此,現在似乎有一種趨勢,語言、視覺乃至影片都被整合進基於 Transformer 的模型當中。您如何看待這種發展趨勢?Dan Povey:我認為對於研究而言,所有人都使用同一種模型並不健康,因為如果大家都用同樣的模型,就會遇到相同的問題,然後嘗試相同的解決方案。這樣就會產生大量重複的研究。在語音識別領域,也曾經出現過所有人都用同一種方法的情況,這實際上並不太好,因為研究整體的進展會變得很慢。我認為在不同任務中使用不同的模型會更有利於研究的發展,這樣可能會讓工具和方法發展得更快。話說回來,Transformer 確實效果很好,而且效率也不錯,特別是有了各種加速器的支援。但另一方面,我不喜歡過度依賴這些加速器,因為它們實際上會凍結研究進展。一旦你開始使用為了特定模型(比如某個注意力模組)開發的特定加速器,你就失去了改變它的自由。這相當於把整個領域的進展都固定在那個點上了。機器之心:那您認為語音會完全融入機器學習領域,還是說仍然會獨立發展?Dan Povey:我們確實還有自己的會議,但事實是大多數時候,我們都在使用與 AI 領域相同的方法和工具,比如 PyTorch,還有 Transformer。我覺得讓各個領域保持自己的特色和方法是件好事,也許有一天我們會發現比其他領域更好的解決方案呢?如果我們做的事情僅僅只對語音有用,那並不會讓人感到太興奮,我們肯定是希望能夠提出對機器學習其他領域也有幫助的想法,我們一直都在嘗試具有這種更通用的潛力的新方案。但是,在這個領域要做出新發現有時候需要很長時間,因為有這麼多聰明人都在試圖改進 AI,那些容易被發現的方法早就已經被人發現了。機器之心:如今要想做出有影響力的研究工作越來越難了,您如何應對這種情況呢?Dan Povey:對我來說這不算什麼,因為我已經過了需要向人證明自己的階段。但對於學生或年輕人來說這確實是個問題。我的優勢可能在於願意去做別人沒有在做的事情,或者選擇並不熱門的領域。我不知道我能否在當前的 AI 領域產生重大影響,因為每個人都湧入這個賽道。我可能需要找一些不那麼熱門但更有潛力的方向,但首先我們要在 TTS 領域做出有影響力的工作。機器之心:有不少從事小模型的研究人員表示,儘管他們的模型效能也很好,但由於無法部署到與 Transformer 同等的規模,他們很難證明小模型的優勢,您如何看待模型大小、可擴充套件性和效能之間的權衡?Dan Povey:所有的大模型最開始也都是小模型,Transformer 剛被提出的時候也沒有跑在 1000 個 GPU 上。不過,規模和效果之間確實是有關聯的,比如 Transformer 在資料量很小的情況下效果並不是特別好,當然,這也取決於損失函式。現在我們一般都用中等規模的模型,就是規模大到可以看出它在更大規模上是否可行,但又足夠小,方便做實驗。因為超大規模實驗的問題在於,實際上每個實驗都只能做一次,因為成本太高了。我不喜歡超大規模實驗的另一個原因是,人們會開發一個系統,然後給它起個名字,比如「語音轉某某」或「XX 轉 XX」的命名模板,然後用他們獨有的 100 萬小時的資料去訓練,這個模型就成了世界上最好的模型。但是,由於沒有人能在相同條件下復現,你不知道他們的方法是否有什麼特別,是不是真的更好。所以,從某種意義上說,這對領域的進步貢獻並不大。再來,媒體喜歡報導這類東西,它們在媒體上被大量討論,然後做決策的人看到媒體報導,也變得很關注這些。結果就是人們只關心超大規模。當然,這也會反饋到研究人員身上,因為他們需要申請資助等等,但就連有的研究人員也會受此影響……Dan Povey:機器學習領域盛行過許多的研究風格和潮流。多年來,學界一直痴迷於數學證明,尤其是凸最佳化相關的證明。據說在這股潮流的巔峰時期,一位領軍研究者對另一位說:「如果不是凸的,那就別說是在做機器學習。」這種痴迷的痕跡至今仍可見於傳統 NIPS 論文中必有的定理 1(Theorem 1);這些定理大多是瑣碎的,與論文主旨關係不大。我個人不喜歡這種風格的一個原因是,人們往往喜歡展示非常技術性的證明,卻不給出任何直覺解釋或背景說明,於是這就成了一種「我比你聰明」的展示,而不是向那些尚未掌握知識的人傳授知識。如今機器學習領域的成功往往被簡單歸結為「這個方法管用」。當某個方法不管用時,人們似乎對其失效的原因缺乏深入研究的興趣。這與土木和結構工程很不同,在那些領域,失效分析受到高度重視。在我自己團隊的工具當中,我們有大量用於診斷的額外程式碼,比如當某種方法收斂不好時,我們可以準確找出原因,而不是簡單地降低學習率。很多情況下,問題都與某個特定的子模組有關,比如啟用值或梯度爆炸。我可能應該想辦法推廣這類工具。另外,我認為機器學習與資訊理論之間的潛在聯絡也應該得到更多關注。舉個例子,現在很多人在使用涉及啟用值碼本量化的方法時,他們像對待空操作一樣傳遞這個(VQ + 重建)操作的梯度,這是很粗糙的做法。實際上,我們可以用夏農-哈特利定理來分析這個問題,假設啟用值是高斯分佈的,該定理告訴我們需要多少位元才能將它們重建到特定的保真度(用相關性來衡量)。因此,在訓練時,你可以將這個操作視為將啟用值與一定量的高斯噪聲混合。這就為傳遞梯度提供了理論依據,儘管理論上你應該用一個標量來縮小它們(對於大多數拓撲結構,這不會影響最終結果)。這只是應用資訊理論的一個例子。目前我還對雙射函式的神經網路層或模組很感興趣,這種函式不會將兩個輸入對映到同一個輸出,因為每當我們將兩個輸入對映到同一個輸出時,我們就會損失一些資訊。機器之心:說到研究風格,現在學術界也出現了一些新的趨勢,比如在社交媒體上宣傳自己的研究工作。對此,一些會議已經開始採取措施,比如規定具體的宣傳時間視窗。您怎麼看待這種現象?Dan Povey:我覺得這另一回事,現在美國學術界有一種態度,那就是不想要任何的「不公平」。其想法是如果你來自一個知名團隊,或者你已經很出名了,這跟是否接收你的論文應該沒有關係。但我覺得這是出於他們對公平的理解,與研究風格無關。機器之心:如果您來主辦一個會議或期刊,您會給投稿設立什麼標準?Dan Povey:我會允許人們釋出預印本,因為我覺得如今會議這種形式對傳播研究成果來說已經不那麼重要了,沒有人能看完會議上的所有論文。人們總是轉發 arXiv 上的論文,很多甚至都還沒發表。而且會議實際上會減緩研究進展,假設某人想出了一個新的方法,投稿到 NeurIPS,這樣就必須在規定時間前對論文內容保密,對吧?所以會議可能會將事情延後半年到一年。我認為在網際網路時代,傳統的同行評議模式已經沒有必要了。我喜歡 ICLR 的做法,應該是 Yan LeCun 在試圖推廣,ICLR 的評審是完全公開的,即便不是評審人也可以發表評論,而且所有評論都是公開的,我想要類似這樣的方式,甚至沒有正式的接受或拒稿的決定,每個人都可以上傳他們的論文。當然,還是需要透過一些方法來篩選出好的論文,但我們可以開發某種社交演算法,比如給不同的人的投票設定不同的權重。既然可以給 YouTube 解決這個問題,為什麼論文就不行呢?比如說你和我登入 B 站,我們看到的推薦內容肯定不一樣,對吧?這沒什麼問題,你能看到和你類似、與你觀點相近的人喜歡的內容,然後你可以根據自己的喜好來決定信任誰。當然,這可能會導致有些人最終相信錯誤的內容,因為他們關注了一些持有錯誤觀點的人。但這也沒關係,人們本來就會相信一些錯誤的東西。更重要的是,那些想要追求真相的人,他們能不能找到真相?機器之心:那您覺得 AI 評審如何,就是用 AI 來評判論文?Dan Povey:這種方法可以,但問題在於 AI 總是會稍微落後一步,因為 AI 判斷一篇論文好與壞的標準,是基於這篇論文和以往那些被大量引用的論文有多相似。我認為 AI 不太可能識別出下一個重大突破,因為新的突破往往和過去的突破看起來不太一樣。機器之心:Rich Sutton 教授在《The Bitter Lesson》一文中提出,縱觀 AI 歷史,往往是那些簡單且可擴充套件的方法效果更好。您對此是怎麼看的?Dan Povey:首先,AI 的歷史並不算長。「可擴充套件」也有不同的形式。有些方法在計算層面上很容易擴充套件,但實際上並不好用。我不認為 AI 的解決方案一定是簡單的。其次,什麼叫「簡單」?有時候你可以用很少的程式碼寫出一個神經網路程式,但神經網路本身是非常複雜的,真正在做識別的是這個很複雜的神經網路,僅僅因為可以用幾行程式碼實現,就說這種方法很簡單,這樣說真的準確嗎?即便某種方法的定義很複雜,只要我們能夠處理好它的複雜性,那就沒有問題。我們的大腦就沒有簡單的定義,而且每個人的大腦都略有不同。這是好事,因為不同的人在不同方面各有天賦。對於神經網路來說,如果有某種元引數或元描述,讓每個網路都有點不同,然後透過選擇或其他方式進化,這可能是個不錯的方法。但我們需要找到合適的描述語言,讓進化能夠很容易發生。Dan Povey:當我們看到真正的進步時,我們是能夠分辨出來的,過於嚴格定義反而會限制我們的想象力。至於複雜性,我認為一個方法在最初被發明時往往很簡單,隨著時間推移,人們會開發出更復雜(也更高效)的版本,類似人們最初發現了鐵,然後是碳鋼,現在已經有上千種不同型別的鋼。當然,有時我們也會發現簡化的方法。我認為不應該僅僅因為已經有一個運作良好且簡單的方法就停止改進。舉例來說,很多人都在為標準 Transformer 架構做硬體加速,我覺得這對進步來說是危險的,因為一旦你對標準架構做任何改變,速度就會大幅下降,這阻礙了探索。我對使用預訓練模型和微調的趨勢也持謹慎態度,因為這將把你限制在預訓練時使用的架構上。這確實有用,也許這就是未來的方向,但它會減緩進步的步伐。就像美國的建築規範,短期內可能確實讓建築更安全更好,但同時也讓建築風格和方法固化,從而阻礙了進步。我認為《The Bitter Lesson》一文主要是針對早期的 AI 從業者,那時的 AI 都是關於形式化「蘇格拉底是人,人都會死,所以蘇格拉底會死」這類推理。確實,通用方法正在佔據 AI 的大部分領域,但我們使用它們的原因不應該僅僅因為它們是通用的,而是因為它們更好。例如,在 wav2vec 中,他們移除了使用 FFT 係數對數能量的人工設計前端。這種傳統方法雖然看起來像是「人工雕花」,但移除它並沒有提升效能,反而讓系統變得更慢。這與其說是技術進步,不如說是一種噱頭,好讓他們可以宣稱自己的系統是「端到端」的,因此很「現代」。如果保留 FFT,系統實際上會更實用。還有一點,如果所有事情都可以由一個簡單的 AI 架構完成,我們會生活在一個什麼樣的世界?人們會做什麼?我最近看到一個觀點,說衡量一個國家價值的更好指標不是 GDP,而是其人民執行復雜任務的能力。即使人們不需要去程式設計、製造複雜機器、寫書或創作藝術品,人為創造這種需求也是有意義的,因為這可以發展人們的技能和能力,給他們有意義的事情做。難道讓他們待在家裡看直播、吃零食會更好嗎?人生來就想要競爭,做很酷的事情,也自然想擁有某種自主權。所以從長遠看,以一種讓小公司能夠蓬勃發展,讓人們能夠一起創造的方式來組織經濟是有意義的,即使從短期經濟角度來看,這並不是最有效率的。我甚至認為,禁止某些領域使用通用 AI 是有道理的,因為它會剝奪人們生存的意義。想象一下,如果有人發明了一個人工兒童,比真實的人類兒童更好、更便宜、更高效,你會用這個產品替換你自己的孩子嗎?現在想象他們發明了一個比真實員工更好的人工員工,你會接受他們替代你或你孩子的工作嗎?我想答案是否定的。機器之心:隨著機器智慧的發展,您如何看人類的創造力和直覺在推動技術創新中的作用?Dan Povey:一直以來,創新都是關於人類的獨創性。我想我們之所以會問這個問題,是因為現在有了能發明東西的機器。我們會被這些機器取代嗎?這很難說。我認為人類的直覺仍然扮演著機器無法替代的重要角色。而且人類可以基於機器的成果來簡化直覺,因為機器往往會提出過於複雜的解決方案。比如說你讓機器設計一個馬達,它可能會設計出一個形狀奇怪、看起來有點像生物的馬達,人類很難理解它為什麼能工作。所以要真正從中學到東西,我們需要有人來解釋為什麼這個東西有用,可能要描述它利用了哪些效應等等。Dan Povey:這我倒不擔心,關鍵是也沒有人能很好地解釋我們的大腦是如何工作的。最終有的決定就是無法被解釋的。而且,關鍵可能在於即便有了解釋,你並不喜歡那個解釋。機器之心:關於 Scaling Law,這是目前 AI 領域討論最多的話題。這也跟我們之前的討論有關,大模型很難做實驗,因為它們太大了。所以有人研究 Scaling Law,先用小模型做實驗,再遷移到大模型。您怎麼看 AI 界提出的這個 Scaling Law,您在工作中有用到它嗎?Dan Povey:這確實是個很有用的新工具。我覺得在 AI 從業者的腦子裡,一直都有某種規模效應的概念。只是我們不一定會去做系統性的實驗證明它。我們有一些直覺,然後根據實驗來更新這些直覺。現在有人嘗試把它系統化,建立圖表來幫助瞭解如何更好地擴充套件,這是好事。機器之心:有觀點認為 Scaling Law 已經到頭了,主要是因為資料不夠了,我們只有一個網際網路,公共資料就這麼多,儘管計算能力還在不斷增長。Dan Povey:我不這麼認為。我們可能接近文字資料的極限了,但在影片資料方面還遠遠沒有達到天花板。實際上,這是我們團隊可能會從事的另一個方向,那就是研究如何把影片壓縮得更小、更適用於機器學習,因為現在還無法在網際網路規模的資料上訓練影片大模型。機器之心:說到壓縮,有觀點認為智慧就是一種資料壓縮。Dan Povey:這個話題很有趣。壓縮對智慧而言可能很重要,也許我們可以用壓縮的概念來改進 AI。但如果說智慧就是壓縮,這可能有點過了。機器之心:聊了這麼多,這些年領域的發展和變化,種種因素,對您的研究方法有什麼影響?Dan Povey:以前我會想出很多點子,主要是自己去試。現在不同了,我有團隊成員可以幫我去嘗試這些想法。但難點始終在於如何決定在不同的問題上投入多少精力,對此我還沒有找到理想的解決方案,主要還是基於直覺和一些其他因素。機器之心:您認為未來 AI 領域哪些問題最有前景?Dan Povey:我覺得機器人領域還有很多未被開發的潛力。人們已經制造出可以走路的機器人,而且訓練過程中不需要太多人工干預。但目前機器人似乎還沒被用於什麼特別有用的事情,當然在酒店送餐確實有用。但我覺得將來在採礦、農業和建築領域,可能會出現更通用的機器人。有些地方在建造摩天大樓時已經用上了,但還可以用於其他更基礎的建築任務。我覺得在解決軟體不相容問題上也有機會,如今程式設計師做的很多工作都是在各種不相容的軟體版本中摸索,這真的很麻煩。一定有辦法解決這些相容性問題,不過這可能需要從零開始重建。此外,還可以開發某種簡化的計算系統,類似一種可以在任何硬體上執行的通用語言,去解決可重複性的問題。對於 AI 計算來說,這是一項特殊的挑戰,因為 AI 模型通常需要在特定版本的 ONNX 上執行,而且計算量都很大。試想,如果你能得到某種 git hash,讓你能夠一鍵復現特定的函式呼叫或計算,那肯定會非常有用。機器學習確實已經有一些交換格式,但還有很多工具開發的空間。比如說,我們特別需要一個支援不同精度整數運算的工具。現有的框架如 PyTorch 就缺少一些基礎功能,比如將 int8 乘以 int8 矩陣,在 int32 中累加,乘以指定標量,然後限制在 int8 範圍內這樣的操作。要實現這類功能,可能需要即時編譯(JIT)來處理眾多可能的情況,同時還要考慮核心融合。更進一步,如果能在這樣的工具包基礎上新增自動微分功能,讓使用者能夠自由擴充套件或配置(因為需要處理各種近似計算並適當調整梯度),那就更好了。簡單來說,我們需要的是一個「支援整數的 NumPy」,再加上即時編譯和可配置的自動求導工具。我相信這樣的工具會有很大的市場需求。機器之心:在當今競爭激烈的環境下,您對 AI 從業者的職業發展有什麼建議?Dan Povey:我從來都不是特別在意職業發展。比如說,我從微軟研究院離職去約翰霍普金斯大學當研究科學家,按傳統標準看這可能是職業上的倒退,但我當時只是想集中精力做 Kaldi 開源專案,後者對我來說更重要。我認為過分關注「職業發展」並不是什麼好主意,因為這可能導致你做出讓生活變糟糕的決定。僅僅因為某件事在金錢和地位上是一種進步,並不意味著它會讓你幸福快樂,或者實現你其他的人生目標。我記得有人問過賈伯斯這個問題,賈伯斯說「這不是職業,而是生活」,我覺得他說得很有道理。機器之心:對於那些想在這個領域做出真正貢獻的年輕人,您有什麼建議?Dan Povey:首先,我認為你得誠實面對自己真正想要的是什麼。有時候當人們說想要為領域做貢獻時,他們真正想要的是賺錢出名,這兩者並不一定能同時實現。我記得有段時間,如果你是學 AI 的,很容易就能成為百萬富翁——之前我在微軟研究院有個實習生叫 Oriol Vinyals,我經常在新聞上看到他,我不知道他是不是在 OpenAI,他就很有錢——在那個特定的時期,有天賦的人確實有機會變得非常富有,但關鍵是,除非你真的才華橫溢,這種機會可能很難再次出現了。也許未來的關鍵領域會來自我們意想不到的地方,比如化學,誰知道呢?機器之心:在我們結束前,您還有什麼想和觀眾分享的嗎?Dan Povey:我覺得世界各地都存在這樣一個問題,那就是人們過於關注名利。父母會讓孩子參加各種課外班,學鋼琴或其他才藝,即便孩子本人並不感興趣,這樣做只是為了進名校而已。他們最終可能會被名校錄取,畢業後找到一份高薪工作,然後用工作得來的錢去買名牌產品,一切都是在追名逐利。但這不一定能讓人幸福。也許回鄉下種田,結婚生子會更幸福。如果你選擇了某條路,要認真考慮這條路會把你帶往何方。在西方國家有個「博士後陷阱」,也許在中國情況有所不同,但我覺得有很多工作都有這樣的傾向:你職業生涯的最終目標,要麼很難實現,要麼實現了也沒有想象中那麼美好。Daniel Povey 博士畢業於英國劍橋大學,先後就職於 IBM 和微軟。2012 年加入美國約翰霍普金斯大學,任語言和語音處理中心副教授。2019 年 10 月加入小米,擔任集團語音首席科學家。2022 年 12 月,憑藉在語音識別和聲學建模方面的傑出貢獻當選 IEEE Fellow。Daniel Povey 博士是著名開源語音識別工具 Kaldi 的提出者和主要維護者,被業界稱為「Kaldi 之父」。Kaldi 專案在學術界和工業界都極具影響力,廣泛應用於各研究機構和國內外知名公司,有力推動了智慧語音處理的產業化。Daniel Povey 在智慧語音處理的技術上做出了非常多的貢獻。他首次將序列區分性訓練方法應用於語音識別,他提出的 LF-MMI 建模方法至今仍為商用語音識別系統普遍使用的標準技術。他也是將深度學習用於語音識別領域的重要引領者,在語音識別中推廣了時延神經網路,配合 LF-MMI 訓練,是 2015-2020 年學術界和工業界普遍使用的最佳組合。他還是深度學習在聲紋識別領域的重要引領者,提出的 X-vectors 方法是第一個取得成功並被普遍應用的深度學習說話人識別方法,廣泛應用於工業界。他在國際頂級會議和期刊發表論文 200 多篇,谷歌學術引用近 52000 次,h-index 70,擔任 Signal Processing Letters 的終身副主編。- 清華趙明國:學習、最佳化與仿生,重新思考人形機器人發展
- 北大王立威:理論視角看大模型,湧現、泛化、可解釋性與數理應用
- 上海交大盧策吾:關於具身智慧,Scaling Law 和大模型