從專利視角看語音識別產業的趨勢與風險

聲學線上發表於2016-03-02

前幾日,麻省理工學院(MIT)主辦的科技期刊《麻省理工科技評論》公佈了2016年十大突破技術,語音識別和自然語言理解相結合的語音介面技術名列榜單。語音識別作為未來人機互動,即人工智慧領域的一個入口,自然一直備受關注,國內外語音識別產業的競爭也是愈演愈烈。無論是語音識別行業的傳統貴族Nuance,還是後起之秀微軟、蘋果、谷歌、Facebook等,抑或是國內的百度,科大訊飛,思必馳等公司都在加速語音識別行業的佈局。

然而,在當今的激烈市場競爭中,專利早已經成為企業競爭的一柄利劍。過去的2015年,中國國家智慧財產權局共受理發明專利申請110.2萬件,同比增長18.7%,這已經是我國第5個年頭專利受理量居世界首位。也許很多時候智慧財產權的價值還不能直接體現,但是其在提高公司效益,搶佔市場,保持公司可持續發展的能力卻不可小覷,特別是在搶佔國內市場,競爭國際市場中。不僅如此,專利作為企業不得不向公眾透露以獲取獨佔權的關鍵資訊,對其進行詳細、周密、綜合的分析,可以從中獲得巨大的商業價值。今天,我們也簡單的從專利視角來分析一下語音識別產業。

 

從專利申請量分佈看語音識別產業的整體發展趨勢 

1952年貝爾實驗室Davis等人研究實現了第一個可識別十個英文數字的語音識別系統——Audry,開啟了語音識別研究的發展時代。中國的語音識別研究也是始於20世紀50年代的,中國科學院聲學研究所利用電子管電路所搭建了國內第一個可識別10個母音的語音識別系統。語音識別的初期研究進展都是緩慢的,大規模的語音識別研究都是在70、80年代後,才取得了實質性的進展。

 

從ISI Derwent Innovations Index資料庫平臺收錄的自1963以來全世界40多個專利機構的基本發明的資料來看,語音識別的相關專利共計有17792件。其中,1963年至1970年間,並沒有語音識別方面的相關專利申請;從70年代開始,語音識別方面才陸續接受到了相關的專利申請,1970-1990年間,共計有881件相關的專利申請,這段時間主要是相關突破性技術的攻關期;進入90年代後,語音識別系統逐漸從實驗室走向應用,語音識別方面的相關專利也進入了井噴時期,1990-2010年間,共計有12817件相關專利申請,專利的技術趨勢也開始走向了實用,並迅速進入了產業化階段;2010年後,語音識別的核心技術不斷突破,逐漸進入相對成熟的階段,逐年的專利申請量在千件以上,並維持穩態發展。

從專利視角看語音識別產業的趨勢與風險

筆者認為這一趨勢預示著:語音識別技術已經進入一個相對穩定成熟的狀態,其作為人工智慧入口的突破點正向著自然語言處理方面深入,而語音識別與產業化結合所衍生的一系列應用,正在迅速的進行驗證與實現。也就是說,依託雲端計算、網路技術、硬體效能的迅速發展,以及深度學習,神經網路等理論進一步深入,已經極大的提高了語音識別技術的可用性與準確度,語音識別在人機互動中“聽清楚”的任務已經基本完成,下一步的技術的突破應該會集中到“聽得懂”方面,如果仍然在語音識別的階段投入過多的精力與資源,進步與回報的空間將會非常有限。

 

我國的語音識別產業與全球語音識別產業發展基本上是保持同步的態勢。根據CNKI自1985年收錄的中國專利的資料來檢索關鍵詞語音識別,可以發現2000年前在中國申請的有關語音識別的專利累計157件,2000年後也出現了良好的增長態勢,專利申請總量超過1000件,而2012年後,語音識別技術方面的專利申請量又實現了快速的發展,平均每年在500件申請量左右。這也表明:在語音識別的市場競爭中,國內的企業正在抓住機遇,緊密佈局,積極應對,以期望在這場技術的博弈中贏得話語權,爭得一席之地。

從專利視角看語音識別產業的趨勢與風險

此基礎上,橫向觀察整個人工智慧的入口,目前的技術趨勢雖然語音識別仍然佔整體專利佈局的半壁江山,但是手勢及體感和麵部的方面的相關專利申請量也悄然上升。這是否意味著未來的人工智慧,或者說人機互動方式不僅僅是語音入口,也許會是一種全新的方式?

從專利分佈情況看語音識別產業的潛在風險

眾所周知,語音識別是一門交叉學科,其所涉及的領域非常廣泛。從ISI Derwent Innovations Index資料庫平臺收錄的資料看其IPC號分佈,語音識別涉及領域是非常廣泛的。涉及的技術主要包括人工智慧、訊號處理、模式識別、機率論與資訊理論、發聲機理和聽覺機理、神經網路等。涵蓋的領域包括語音輸入、語音辨識、語音翻譯、語音控制等,滲透到工業、家居、通訊、消費電子、汽車電子、醫療健康、家庭服務、交通運輸等多個應用領域。中國專利申請中的語音識別專利其覆蓋的範圍主要集中在語音分析或合成、語音識別、語音處理、語音以及音訊的編解碼(G10L),電數字資料處理(G06F),電話通訊(H04M),這三個領域專利累積比例高達80%。從覆蓋的領域範圍中,可以分析出未來語音識別的應用將會主要集中在利用語音識別輸入代替傳統的人機互動方式,並透過人機智慧對話來提升使用者體驗,協助使用者進行決策中,以及語音通訊,透過聲音對電子產品進行操作控制,如智慧家居、汽車、玩具、控制儀器等。

 

除了覆蓋的領域,從語音識別專利的分佈情況中,我們還要來看一下最為重要的權利人的分佈狀況。以ISI Derwent Innovations Index資料庫檢索語音識別專利的結果來看,累積專利申請量方面,前五位為IBM,NEC,微軟,Nuance和東芝,分別為749件,508件,506件,415件,406件。而從近五年語音識別專利的申請量來看,除了IBM被Google替代,降至第7名,其他幾位仍然保有專利數量的優勢,排名順序是Nuance,谷歌,微軟,東芝,NEC,分別為206件,178件,141件,102件。證明巨頭形成的專利防禦攻勢仍然迅猛,而大家所關心的後起之秀也來勢洶洶,2010-2015年,蘋果佈局專利25件、亞馬遜佈局專利33件。而中國的語音識別企業專利佈局還主要是在國內,國際領域的專利佈局情況和國外企業對比,確實還存在巨大差距,所以未來國內語音識別產業進軍國際市場恐怕會遇到一些小未知。

 

接下來,我們再看一下國內語音識別產業總體的專利分佈情況。從不同國家在華申請的專利數量來看,中國申請人仍佔主導,約佔總量的75%,其次是美國申請人,約佔總量的13%、再次就是日本和韓國申請人,約佔11%。

從國內語音識別專利的專利權人來看,國內企業的專利佈局還不具有突出的優勢。排名前5的國外專利權人是微軟,三星,IBM,松下和三菱,當然這幾個國際電子巨頭在技術上有較強的研發實力,自然佔據了較大的申請量。從時間方面來觀察,微軟與三星的語音識別專利呈上升趨勢,IBM和三菱呈下降趨勢,而松下則相對穩步持平。國內專利權人來看,主要是華為、中科院聲學所和自動化所、清華大學、科大訊飛和聯想在數量上佔有優勢,其中,華為的語音識別技術主要是在行動通訊領域,清華大學主要是針對汽車電器的語音識別控制方案。而國內的語音識別的後起之秀,如百度等,在近幾年的專利申請上也呈現出趕超爆發的趨勢。

 

以上我們可以看出,國內的語音識別技術具備一定基礎,技術實力也旗鼓相當,但是專利數量與專利佈局方面略落後於國外企業。不過,從國內企業專利申請量的增長趨勢來看,加之國內語音識別領域也湧現了越來越多的新興力量,隨著競爭日趨激烈,與國外企業的差距會不斷縮小。在競爭與制衡中,專利是重要的籌碼,國內企業要在國外企業完成在華語音識別領域佈局前,構建起有效的專利保護屏障以及專利預警的機制,才會拿到語音識別領域的話語權,避開潛在風險。


相關文章