語音識別技術面臨的問題 (轉)

worldblog發表於2007-12-02
語音識別技術面臨的問題 (轉)[@more@]

語音識別技術面臨的問題

高皓 2000/12/19


  憑心而論,語音識別是一項複雜的技術,特別對於漢語語音識別尤其如此。因此,儘管多年前就有眾多公司和研究機構開始了語音技術,包括語音識別和語音合成技術的研究,但直到最近一兩年,在國內應該說是今年,才開始有規模的商用。

  國外已經有了不少較大規模的語音識別IVR或者呼叫中心的應用,然而在國內,雖然有將語音識別和呼叫中心結合起來的趨勢,但仍沒有多少應用。這其中雖然有諸多影響因素,但重要的一點就是漢語語音識別技術還不夠完善。那麼,語音識別技術要進入大規模商用,還要跨越哪些障礙呢?

  ■的獨立性
  所謂使用者的獨立性,就是語音識別能夠識別有不同嗓音和口音的使用者,而無需透過訓練軟體來使其識別一個特殊使用者的。目前的許多語音識別軟體,是基於標準的發音來進行識別的。而實際上,人們說話千差萬別,發音也各不相同,特別對於有口音的語音來說,更是對語音識別軟體提出了嚴峻的挑戰。目前的語音識別軟體大部分是透過自學習功能,不斷的訓練來達到軟體對於特定使用者語音的識別。

  將來,語音識別軟體的一個發展趨勢就是加強處理性,可以識別在一定範圍內的各種發音。而實際上,現在有許多語音軟體公司在從事這方面的工作,儘量將所有可能的方言發音收入語音庫。這樣,無需經過專門的特殊訓練,軟體就能識別使用者的發音。

  ■自然的語言能力
  許多語音識別系統還具有自然的語言能力,這就是軟體理解講話者的能力。這種能力不僅表現在特定的單詞上,甚至還表現在短語和完整的句子上。自然的語言意味著兩點:第一,它可讓使用者用句子來表達意思。例如,為表達checking account,使用者可使用有更多單詞的自然句子,如I'd like my checking account balance。 第二指使用者可使用包含多義詞的句子。例如,我們可說I want to traner $500 dollars from my savings account to my checking account。這是自然語言的一個主要準則,使用者可在一個單句中使用多個多義詞。

  有少數複雜的語音識別系統使用提示性對話。在這裡,語音識別系統提示使用者用一個單詞或記號來回答。根據專門機構的調查,多數人更喜歡用約定俗成的自然語言,而不喜歡使用提示性對話。人們討厭的是不完善的自然語言,當能使用完善的自然語言時,人們當然不可抗拒地選擇了它。

  ■處理插入的能力
  新增的插入的能力是語音識別軟體的另一個主要進步。插入的能力允許使用者在系統提示時中斷系統,但系統依然能知道使用者的請求。

  這點對於實際的應用來說是有相當意義的。因為人們在說話時,總是在自覺不自覺地思考,經常會在打斷語言的連續性,而插入一些補充性的語言。這樣的語言,在語法上來說經常不正確的,常規的語音識別系統會很難處理這些語音。

  ■軟體身份驗證的能力
  語音識別銷售商最近還介紹了軟體身份驗證的能力,即根據使用者的嗓音和語言特點,來達到識別使用者的能力。這在實際中是一個非常有價值的特點,如可用於人事管理上。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10752043/viewspace-987501/,如需轉載,請註明出處,否則將追究法律責任。

相關文章