資料洪流下的語音輸入法,需要一副鋼筋鐵骨

naojiti發表於2020-03-12

能線上解決的就絕不見面,已經成了疫情期間人際交往的頭號鐵律。

絕大多數溝通都轉移到線上,是一種什麼體驗?

最近百度公佈的資料顯示,自1月25日春節假期以來,百度輸入法日均語音請求量已破10億次大關,再創行業歷史新高。

除了高流量帶來的衝擊,還需要應對大量新增長尾群體,比如偏遠地區人員、中老年人、少年兒童等等,諸多傳統場景的線上化,也讓使用頻率和形形色色的需求開始激增。

毫無疑問,疫情期間的特殊需求驅動著輸入法行業迎擊新的挑戰,也讓百度輸入法這顆磐石浮出水面。

全民語音輸入浪潮,需要怎樣的技術進行支撐?AI驅動的輸入法又給社會網路生活帶來了哪些變化,是一個智慧時代背景下,值得思考的關鍵命題。

資料洪流下的語音輸入法,需要一副怎樣的鋼筋鐵骨?

一個輸入法而已,技術要求有那麼高嗎?想得太簡單了朋友,全語音互動的輸入法,和傳統輸入法還是有著本質不同。

第一,語音輸入想要達到高標準輸入的水平,所面對的技術難題要比傳統輸入法複雜得多。

比如語音輸入勢必會出現環境噪音,如果演算法不夠強,很有可能識別不清,還需要使用者手動調整,大大降低產品的效率;

再比如,語音輸入需要實時轉換,又不能過多佔用系統算力出現卡頓,這就對軟體的智慧最佳化提出了要求。

而百度輸入法之所以成為特殊時期人們的溝通首選,也得益於在語音識別上的技術優勢。在2019年,百度輸入法線上語音識別準確率相對提升15%,超越行業最優競品15%,才能抗住使用者對語音輸入的高標準、嚴要求,再次重新整理業界紀錄。

第二,訪問量的激增也勢必會讓輸入法遭遇各種不同的網路環境。

對於一些偏遠地區或受天氣原因影響,導致手機網路訊號不穩定時,聯網狀態不佳的輸入法就很有可能出現識別成功率低、識別速度慢等情況。

此前,大部分輸入法會藉助離線語音包來彌補,但在體驗上卻與線上語音相差懸殊,並不能解決廣大使用者的痛點。

這次全民觸網,百度輸入法就以離線語音輸入準確率高於行業平均水平35%的優勢,確保網路不佳狀態下的使用者依然能夠順暢使用。

第三,越來越豐富的人口多元化、經濟全球化趨勢,也讓輸入法開始應對外語輸入、混合輸入等難題。

以前如果上海某CBD白領進行辦公交流,如果要摻雜一些專有英文詞彙,往往需要反覆在中英文輸入中切換,效率低不說,還經常容易出錯。

百度輸入法透過技術創新,在完全不影響中文語音輸入準確率的情況下,實現了高精準的中英文混合語言識別輸入。

在2019年百度AI開發者大會上,百度輸入法就當場挑戰了零誤差識別中英文混合“Rap”——“你的這個新model效果比baseline好多少,探索技術的depth和scope是我們的責任,我很喜歡barrier這個詞,AI的value其實就是break barrier。”

在當下的國際化、中英文日漸頻繁的網際網路交流語境中,百度輸入法獲得日均10億次的語音請求量,也就不足為怪了。

第四,如果說中英文識別考驗的是技術深度,那麼方言識別就考驗著輸入法廠商的語料庫廣度與技術佈局的前瞻性。

尤其是移動智慧開始向更廣大使用者下沉,越來越多的方言使用者也渴望透過語音更高效地互動,但不同於英文的豐富語料,精準識別方言需要前期進行大量的資料收集、標註、清洗、訓練、最佳化等工作,加上中國各地方言數量多,其中還夾雜著各種小眾俚語,難度更是指數級上升。

而百度輸入法透過技術最佳化,將普通話和六大方言融合成一個語音識別模型,實現了方言與方言、方言與普通話的混合語音輸入,讓使用者可以免切換就能“方言自由說”,free is not free(自由不是免費的),人情味的背後則是百度輸入法技術人員的不懈努力。

當然,在語音技術上完成業界頂級考驗,似乎是百度這個“以AI為名”的科技公司的應有之義。

而使用者的標準卻遠遠不止如此。我們知道,停課停學讓許多95後、00後也以前所未有的參與度加入了網路大軍。

他們的要求可不僅僅是“聽得懂、聽得清、聽得快”,還需要炫酷好玩才能佔據手機C位。

此時,百度輸入法的綜合AI實力就開始顯效,透過影像識別、AR等技術的引入,讓輸入法得以擁有AI鬥圖、神句配圖、凌空手寫、皮膚主體C位識別等超越語音、文字的特色功能,也成為業內首家可以多場景整句智慧預測的輸入法產品,成功俘獲了眾多“Z世代”使用者的心。

至此,百度輸入法開始讓“輸入”這個司空見慣的網路衝浪動作,開始向“全感官時代”邁進。

不難看到,作為人與機器交流的直接媒介,百度輸入法能夠抗住特殊時期的資料洪流與挑剔眼光,依靠的就是支撐起體驗質變的“技術長城”。

千錘百煉:百度輸入法背後的“技術長城”是如何煉成的?

在明確了百度輸入法與技術支援之間密不可分的聯絡之後,就不難理解其為何能托起日均10億次語音請求量的龐大需求。

當然,線上訪問激增只是誘因,之所以能贏得這場無形戰爭,核心在於百度輸入法已經構築起了一個固若金湯的技術長城,足以抵禦外界洪流。

在此,可以將百度輸入法拆解成幾個核心構件:

1.自研SMLTA模型的技術底座。

在國際上,我們常常會將百度與中國AI力量代表聯絡在一起,它的技術能力到底強於何處,足以寫一部書來說明。

但支撐起百度輸入法與廣大使用者之間的緊密聯絡,核心就在於自主研發的流式截斷的多層注意力模型——Streaming trancated multi-layer attention(SMLTA)。

是不是每個漢字都認識,但組合起來卻不知道是幹嘛的?這是去年百度在語音技術上的一項重大創新,在全世界範圍內,第一次將基於注意力技術的線上語音識別服務,大規模地應用於輸入法產品,服務數億使用者。

截斷:改變了原本的整句識別建模,變成了區域性一小段語音的注意力模型,比如將中文、英文、方言等截斷,在保證主體精度不降低的同時,可以更有效地去識別其他內容;

流式:簡單來說就是使用者一邊說話,演算法一邊根據上傳的語音資料來識別。好處是可以實時調整,減少延遲,從而避免了使用者上傳識別的較長等待。

多級:傳統的注意力模型面對的句子越長,對語音資料的特徵選擇和匹配難度就越大,出錯的機率也會更高。但SMLTA引入了多級注意力機制,讓機器對語音特徵進行層層遞進的選擇,讓模型的識別率甚至能夠超越傳統的全域性注意力模型。

這也是為什麼,流式解碼中,機器只能接收部分片段,模型精度也往往會低於整句。但SMLTA就能做到,在邊說邊識別的前提下保持足夠的精準度。

SMLTA模型的另一個創新之處在於,將CTC(一種語音識別演算法)和Attention模型集結在一起,藉助CTC的端到端訓練,來輔助提高注意力模型的精度。讓注意力模型在自動尋找每個字的大概範圍時,藉助CTC來做截斷,幫助它更精準地定位。

總的來說,SMLTA模型解決了兩個體驗難題:一是滿足實時率,降低延遲,大幅最佳化了使用者體驗;二是提高離線與線上語音識別率,在行業中獲得全面領先。

這不僅僅是百度語音的技術制高點,也代表了中文語音識別技術躋身世界頂流的榮耀和貢獻;

同時,SMLTA模型在百度輸入法產品上大規模上線,服務中國數億使用者,藉助雲端智慧實現了產業端的低成本落地,讓實驗室技術得以真正賦能每一個人,這也成為百度AI產業化能力的佐證,也讓百度輸入法一躍成為AI語音技術落地的“領路人”。

2.AI技術的累累磚石。

當然,完整的產品體驗也需要完整的技術矩陣來支撐。如果說SMLTA模型“高舉高打”,奠定了百度輸入法的絕對差異化優勢,那麼AI技術的全面鋪開,就成了百度輸入法技術長城所必不可少的一磚一石。

比如,百度輸入法就利用深度神經網路對輸入文字進行建模,打造出了智慧預測功能。

它可以根據使用者的使用習慣,在已輸入詞語的基礎上進行長句補全,大大提高了輸入效率。在遊戲、聊天等場景中,只需要輸入開頭幾個字,比如“為什麼”,百度輸入法就會根據前後語境自動聯想,彈出“為什麼不理我”“為什麼不打上路”等提示,極大地方便了大家網上對話(對罵)有沒有?

目前“智慧預測”已經在微信、QQ、淘寶、王者榮耀、絕地求生等場景實現整句預測推薦,還可以根據不同應用與不同場景,提供不同的預測。

再來說說其他AI技術應用。

想要讓使用者將自己從畫面中完整地“摳出來”,做成AR表情,就需要影像分割技術的支援,讓機器很好地識別出圖片內容,進而疊加上全景動態素材,才能實現將人物置身於虛擬場景的效果。

2019年,百度輸入法的“AR表情”功能使用次數就已超過1億,可見基於AI的創新已經在不知不覺中滲透進了年輕人的社交語境當中。

另外值得一提的是炫酷的凌空手寫。

如果說語音輸入是引領行業的操作,那麼凌空手寫可以說是率先感受未來的。

百度透過雙神經網路模型——一個基於灰度圖的指尖跟蹤模型,另一個基於多方向特徵文字識別模型,讓使用者只需要最普通的RGB攝像頭,就可以實現手在空中揮舞,輸入法就能精準識別出來。

為了保證識別結果的連續和穩定性,百度輸入法的研發團隊還針對鋸齒和連筆在三維空間的手寫識別演算法進行了大量最佳化工作,並準備大規模應用。

可以說,百度輸入法又一次站在了行業橋頭,引領著產業技術迭代的方向。

等待百度輸入法補全的產業續曲

透過拆解百度輸入法的技術路徑,可以更為清晰地看到,在未來的一段時間內,AI托起的技術盛景,將如何更好地推動社會升級。

首先,語音技術在應用端的想象空間被進一步開啟。

隨著大規模使用者習慣的養成,語音輸入等AI功能的落地也成為撬動行業格局的下一個賽點。

艾媒諮詢《2019中國第三方手機輸入法市場年度專題研究報告》資料顯示,百度輸入法全年月活增速居行業首位,表現最佳。

其次,百度的技術本位,在輸入法產品上又一次被成功印證。

輸入法作為線上互動的入口,也是最能夠真實反映網路狀態和現實趨勢的視窗。可以看到的是,AI與產品的結合,即將改變千行萬業的市場格局。

提升社會生產效率,恢復和持續發展經濟,各行各業都離不開智慧工具的支援。AI產品服務的使用者邊界也在快速擴大,這不僅考驗著科技產品廠商的技術高度,也要求在產業化落地上交付出成熟的解決方案。

從這個角度看,單日語音請求量破10億次並不是一個偶然事件,其背後連線的是百度AI技術體系的多年佈局、輸入法產品的迭代方向、使用者需求洞察的敏銳視角,這些要素的迭代,才最終讓我們看到了這場技術領域的驚濤拍岸。

手握技術之權杖,才得見崢嶸歲月,無懼風流 。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2679937/,如需轉載,請註明出處,否則將追究法律責任。

相關文章