12 月 11 日,擅長計算機視覺技術解決方案的依圖科技在北京公開展示了語音識別領域的最新技術成果,並表示將在近期開放依圖語音識別 API 介面以及部分測試資料集。同時,依圖科技還宣佈,將基於其語音識別技術與微軟 Azure、華為推出聯合方案平臺。
01 最優測試結果如何保證客觀性?
活動現場,依圖首先展示了其語音識別小程式「聽寫大會」在歌詞識別、飛機機艙混響環境下的播報識別結果,以及依圖語音識別 API 在公開資料集、依圖自有資料集、非公開資料集三類資料集上的平均錯字率(CER)表現。
測試結果均以橫向對比的形式體現,橫向對比的其他主流方案包括訊飛聽見、訊飛開放平臺、雲知聲開放平臺、阿里一句話、騰訊 AI 平臺、百度語音-遠場、百度語音-輸入法、百度語音-搜尋。
資料集是測試結果公正性的重要依據,為體現資料集的科學性和多樣性。依圖測試過程中涉及到的公開測試資料集包括:
全球最大中文普通話資料庫 AISHELL1、AISHELL2(採用 iOS 系統,Android、Mic 效能類似,省略)、中文語音語料 THCHS30、PrimeWord、ST-CMDS;
依圖自有資料集包括安靜對話、混響資料集;
非公開資料集,即向第三方購買的資料集,包括語音助手場景、電話閒聊、電話客服、遠場演講、口音等場景的資料。
依圖科學家吳雙博士表示,該批測試完成於 2018 年 11 月底,資料覆蓋了近 60 萬字、50 小時的語料,近場/遠場跨度在 20cm-10m,涵蓋智慧音響、手機等多種裝置,科技、醫療等超過 20 類話題領域。
在上述提到的所有測試資料集和測試場景中,依圖語音的平均字錯率表現均優於科大訊飛、百度等橫向對比的主流語音方案商的開放平臺方案。字錯率是中文語音識別領域的關鍵性評估指標,一般認為字錯率在低於 3% 時不會影響可讀性,而超過 15% 則毫無可讀性。這兩個資料被視為是語音識別的兩條紅線。在不同場景下,不同演算法的表現可能存在很大差異。
活動現場,橫向對比測試結果依次呈現在大螢幕上,引來在場諸多人士拍照。這在一定程度上展示了依圖在特定測試條件下的技術領先性,同時也反映出業界所謂的「成熟」中文語音識別方案還存在諸多提升和改進空間。
比如,在公開資料集 AISHELL-2 中,依圖短語音聽寫的字錯率為 3.71%,領先原業內領軍者約 20%。在手機進場(接近可用)場景下,依圖語音的字錯率為 3.6%,排名第二雲知聲開放平臺字錯率為 4.2%,依圖語音領先雲知聲開放平臺近 17%。
比如,在非公開資料集的電話場景中第一類「電話閒聊」場景下,只有依圖語音和訊飛聽見(非同步模型)在稍微接近 15% 字錯率的下限,即「勉強可用」。而排名靠後的阿里雲智慧語音、雲知聲開放平臺、騰訊 AI 開放平臺-WeChat、訊飛開放平臺、百度開放平臺遠場方案在電話閒聊、電話客服場景下均超過了 15% 字錯率,即「毫無可讀性」。
在遠場演講場景下,除依圖語音和訊飛聽見(非同步模型)的平均字錯率達到可用容錯範圍外,阿里雲智慧語音、雲知聲開放平臺、微信開放平臺-WeChat 流式、百度開放平臺等基本「全軍覆沒」,均明顯高於平均字錯率 15% 的下限。此外,從測試結果中也可以看到,各家演算法在遠場演講場景下的表現落差較大。
有媒體人士評價,依圖如此掀開語音識別市場「遮羞簾」的做法真是耿直!
此外,在通用性層面,柱狀圖寬度越小,說明字錯率浮動範圍越小,演算法的場景通用性越好。綜合各場景測試的結果,業界主流演算法中,依圖和訊飛的演算法字錯率浮動範圍相對較小。
上述檢測結果難免觸及其他友商的利益和技術權威性,業界不少人對其客觀性和公正性提出質疑,機器之心針對該類問題與依圖科學家吳雙博士向依圖進行了交流。值得注意的是,上述橫向對比方案均為各廠商的開放平臺方案,並未完全代表各家在語音識別領域的綜合實力水平。
1、機器之心:測試結果採用自家測試的方案,在測試方法、測試裝置的公平性上如何保證?測試物件是否符合雙盲隨機原則?
吳雙:依圖自有的資料集、演算法 API 將在近期公開。在所有公開資料集上的測試結果均可復現上述結果。基於非公開的各家自有資料測試集上的不同測試結果,我建議大家都把資料集公開,用公開的測試資料集的結果體現水平,這樣大家的測試結果均可以被其他家測試驗證,公正性就有了保證。
2、機器之心:測試結果除了與軟體演算法相關,硬體裝置,尤其是麥克風陣列排布影響到的拾音效果也可能間接影響語音識別的準確率。上述展示的測試結果都是基於同一款裝置嗎?
吳雙:上述測試涉及到了多種硬體裝置,比如智慧音響、手機以及其他硬體裝置。我們希望能夠覆蓋更多硬體裝置。硬體方案的確會影響語音識別效果。但是面向不同的識別場景,我們都是呼叫同一套演算法,同一套 API。
02 如何實現一年超越「訊飛」們?
相比計算機視覺技術的發展和落地,語音識別研究顯然起步更早,對應的玩家形態和市場格局也更為成熟。眾所周知地,科大訊飛在語音識別領域的積澱和商業化已有十餘年曆史,近幾年 BAT 玩家的湧入也來勢洶洶,介面免費、平臺開放的政策接二連三。在看似已成定局的賽場上,依圖如何後來者「居上」?
談到語音識別領域的研發歷程,吳雙表示,大約是一年左右不到的時間,即去年底今年初投入力量進行語音識別方案的研發,但在語義理解層面,依圖已經有所建樹,比如在醫療領域,電子病歷理解的應用。
實際上,早在今年的一次公開活動上,依圖科技聯合創始人林晨曦曾接受相關媒體採訪時表示,依圖科技接下來會繼續進軍語音識別和自然語言處理,要在這兩個領域也做到超越人類水平。
相比語音識別領域已有的巨頭玩家,依圖在資料量積累和模型訓練時間等核心層面均不佔據優勢。但是依圖卻在短短一年時間內,資料量相比巨頭有限的情況下,在部分測試集和核心指標上超過了前者。
對於其原因,吳雙認為,強化學習、對抗學習等技巧層面的策略大家都會跟進,做演算法優化並沒有捷徑。在方法論和做事態度層面有依圖在視覺領域的經驗作為基礎。目前,依圖語音的表現是相對意義上的效能提升,平均演算法效能領先 11%,在某些特定的場景下領先更多。
對於語音市場看似產品繁多,但真實體驗卻與宣傳效果存在差距的現象,依圖科技首席創新官、前 Google Research Scientist 呂昊博士認為主要原因有三,其一,業界缺乏系統性的標準測試、測試集,而覆蓋多維度多場景的資料成本過高;此外,工業界語音識別的水平已經遠超過學術界,但與此同時,也缺乏體驗和比較的工具。
左為依圖科技首席創新官呂昊,右為華為智慧計算渠道合作部部長康鑫
活動現場,依圖方面還宣佈了將聯合微軟推出語音開放平臺,依圖的語音識別方案將在微軟雲 Azure 上線。依圖科技將聯合華為推出智慧語音解決方案。此前,依圖還與華為聯合釋出了面向泛安防場景的智慧園區和視訊雲人像大資料解決方案。
活動現場,華為智慧計算渠道合作部部長康鑫談到,在華為的 160 個 ISV 中,依圖已經成為華為最頂級的 ISV 合作伙伴。從目前合作模式來看,依圖語音技術的落地方式主要面向 B 端客戶。
據公開資料顯示,依圖科技最近一輪融資在今年 3 月完成,紅杉資本中國、高瓴資本、高榕資本等投資方也持續跟投,該輪融資中依圖科技公司整體估值為 150 億人民幣。
對於依靠人工智慧第三波浪潮快速成長的獨角獸而言,經過 2018 年落地商業化的考驗之後,拓寬業務領域和加強解決方案的完整性成為提升競爭力的關鍵。
可以看到的是,以視覺方案為主的依圖、雲從開始切入語音市場,而以語音方案為主的雲知聲則開始在影像識別領域佈局。業內人士表示,在智慧家居、智慧汽車、智慧醫療等領域,未來的互動肯定是多模態的,不會是單一的語音、或者單一的影像功能。