你儘管“動腦”,話交給腦機介面來說
很多人都知道霍金擁有一臺極高科技含量的輪椅,能在無法動彈或者言語的情況下,合成語音,以與外界進行交流,甚至還因此著書立說。
但也可能有很多人不知道這臺輪椅是如何工作的。其實霍金一開始可以用手指來敲打鍵盤輸出文字,但隨著病情的加重,手指也無法動彈。於是相繼採用過眼球跟蹤和腦電波識別的技術,但最終由於病情的加重而放棄。
後來的霍金是戴著一副安裝了紅外探測器的眼鏡,透過識別臉頰的一塊兒肌肉運動,來代替原來的按鍵。
至少在霍金在世的時候,他採用的已經是世界上最先進的語音合成技術。但科技的進步往往神速而出乎意料,如果霍金多活幾年,他連動“肉”的勁兒都省掉,直接動動腦子,就能合成語音了。
因為,腦機介面技術,又搞了個大事情。
讓腦電波開口“說話”的前夜:先來打個字吧
以腦機介面的方式,捕捉大腦電波,然後實現打字的目的,再進行語音合成輸出,並不是一個很難的課題。
去年世界機器人大會上,清華大學研發的“動態窗穩態視覺誘發電位腦機介面系統”就“主導”了一場透過腦機介面來打字的比賽。參賽者們只要在頭上戴上相關裝置,將注意力集中到電腦螢幕上的虛擬鍵盤中的字母上,腦電波就會被捕捉,然後將對應的字母顯示出來。
字母打得多了,字也就打出來了。
這種方式和對霍金的一小塊兒肌肉進行捕捉原理上基本上沒有差別,都是透過捕捉人對字母的強烈反應而實現語言的輸出。不同之處在於,霍金由世界頂尖科技團隊開發,可以採用單詞聯想的方式提高打字的效率。
這種方法聽起來確實很高階,但也存在一定的不足。
第一,打字的速度較慢。英語還好一點,只要字母拼全就完成了打字的過程;而漢語還需要進行轉化,遇到同音詞還需要進一步進行選擇,這就需要進行二次腦電波捕捉。逐字的打字方法令其在單位時間內能夠打出的文字相當有限。
第二,對參與者的精神集中有要求,而且抗干擾較弱。腦電波是非常敏感而且活躍的。一方面人如果注意力無法高度集中,系統就將很難對字母進行定位;另一方面人的大腦在看到字母的時候往往會不由自主地產生聯想,比如看到“c”會想到“copy”或者“car”等詞,這也會對系統識別產生干擾。
正常人想要順利打個字都極度耗費體力,就更不要說那些身患阿爾茲海默症或者其他病症導致無法言語的病人了。霍金之前沒有采用類似的方案,就是考慮到無法承受如此的體力消耗。
當然,個人認為這種方案雖然目前僅僅還停留在科技“趣聞”或者“獵奇”的階段,但其本身是一種突破性的。它的意義並不在於有多好用或是取得了多少實際的效果,而是在於探索出了一條腦機介面的新的道路。至少讓人們看到,透過腦機介面來實現“意念”輸處文字甚至是語音輸出是完全可行的。
而這種可行性,被加州大學舊金山分校的一項研究成果,進一步證實並且加強。
把腦電波合成為語音,總共分幾步?
加州大學舊金山分校的神經科學家的解決方案,是從解剖學的角度出發,模擬真人發音時大腦發出的口腔喉嚨肌電訊號對發音系統的調動,比如在發“啊”這個音的時候,嘴唇、下巴、舌頭和喉嚨以及其他成分的動作,然後合成相應的語音。
那麼,要把腦電訊號合成為語音,總共分幾步呢?
第一步,樣本收集。研究者讓5名完全健康的志願者在UCSF Epileps接受了一項外科手術,在其大腦中臨時植入了一塊電極。接下來,志願者被要求大聲朗讀指定的數百句話。在朗讀的過程中,科學家記錄了不同語言文字在朗讀過程中在大腦區域內的活動訊號。
第二步,破譯訊號。透過迴圈神經網路(RNN)的不斷學習,研究者將大腦神經訊號轉換成了發音器官動作的訊號,這些訊號與發音器官的動作直接相關,比如嘴唇、下巴、舌頭、喉嚨等。
第三步,虛擬聲道。虛擬不同聲音所產生的聲道運動,就像漢語中雙唇音、唇齒音、舌尖中音等所需要調動的不同發音部位一樣,正常來說,如果模擬的發音運動模式和人正常說話時一樣,那麼所發的音也一定是一樣的。
最後一步,就可以進行語音輸出了。
為了測試虛擬語音的流暢性,研究者們在亞馬遜的任務眾包平臺Mechanical Turk上招募聽眾來對這些合成語音的325個單詞和101個句子進行辨認,結果大部分的單詞和句子都被人們成功識別。
這意味著,不用動嘴,透過腦電波來實現語音輸出,完全是有可能的。這對於中風、腦損傷或其他疾病而導致的語言功能障礙的輔助,將具有里程碑式的意義。
技術落地尚遠,“腦機”仍需努力
相較於“字母表模式”,這項研究的優勢是顯而易見的。
首先,語音合成速度會得到大大提高。字母表模式下,比如透過眼動或者肌肉塊兒的捕捉,每分鐘能成功輸出10個單詞左右。對於正常交流而言,一分鐘說10個字,一方面的確很不便,另一方面確實很考驗人的耐心。而透過聲道模擬語音,每分鐘輸出的單詞可以達到150個,這與自然語言中每分鐘100-150個單詞已經幾乎沒有差別。實現正常人般的交流,可以說毫無壓力。
其次,相較於捕捉大腦訊號對字母的感應,語音產生的機電訊號更為強烈,也就更容易捕捉。所以,這在很大程度上可以緩解因訊號識別緩慢而導致語音合成效率低下和患者焦慮的問題,更進一步而言,也增加了患者的接受度。
當然,作為一項尚未走出實驗室的技術,它的缺陷也明視訊記憶體在。
第一,人工智慧識別的準確率和資料的豐富程度呈正相關。也就是說,利用RNN去進行學習破譯腦電波訊號並將其轉化為發音器官動作的訊號,要想實現較高的正確率,就需要大量的資料。目前的現實是,雖然語音輸出的速度很快,但也只有一半的句子會被識別出來。就像說話的時候嘴裡含著一口水,必然是會影響交流的感受和效率的。
第二,不同語言、不同方言之間的通用性很弱,即便是同一種語言,由於方言的差異性也會導致發音的時候各部位的運動存在著細節性的發音差異,會導致語音合成的混淆。比如在漢語中“六”的發音,不同地域之間的差別達到了二十多個。為一種語言建立一種樣本?似乎有點過於繁瑣。
所以,如果能找到一種更好的方法能夠增強該技術的通用性尚可,如果僅僅停留在這個層面,其產品很可能無法走入尋常百姓家,而是成為顯貴人群的私人訂製。
研究者們自己也承認,聲道運動和語音的最終形成是一個複雜的關係,目前該系統對合成較慢的發音比較擅長,對說話者的節奏和語調有一定的要求,距離最終的應用,仍然是有很長的一段路要走。
但不管怎樣,這也應該屬於腦機介面技術的一次重大突破了。試想在不遠的將來,你只需要動動腦子,就會有準確無誤的文字或者語音轉化出來,人機互動將會變得多麼順暢而自然;而對於那些長期存在語言表達障礙的弱勢群體而言,或許“福音”二字,已經遠不足以表達其所蘊含的難以估量的價值。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2646534/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 被群嘲的Python不服輸!2020年我憑實力說話!你儘管罵...Python
- 準確率97%,將大腦訊號轉化為語音,新型腦機介面讓失語者「說話」腦機介面
- 「腦機介面」——人腦與AI結合腦機介面AI
- 腦機介面習題腦機介面
- 讀腦術:腦機介面+AI能預測老鼠神經活動腦機介面AI
- 給大家說一點簡單的電腦知識,知道這些可以提高你的電腦速度,不在愁電腦變
- HTML5前端開發影片教程限時送,儘管去努力剩下的就交給時間!HTML前端
- 腦機介面例項二:腦電訊號CSP處理腦機介面
- 最簡單的大白話給你說明白js的非同步機制JS非同步
- 電腦耳機有聲音,麥克風不能說話的解決方法
- 留下你最想說的話,我來用ai回覆你AI
- 公司要給大家更改交社保的公司,這個是啥情況,過來人來說說
- 腦機介面簡史——假如這篇推送是你靠意念開啟的腦機介面
- 快速清理電腦磁碟?來給你Mac磁碟做一次徹底瘦身吧Mac
- 腦機介面不斷迎來重大突破,“思想鋼印”還會遠嗎?腦機介面
- 電腦印表機驅動在哪個位置?window電腦印表機驅動位置介紹
- 為侵入性腦機介面瑟瑟發抖?別怕,大腦可以被“聲控”了腦機介面
- 電腦自動關機是什麼原因 電腦自動關機怎麼解決
- 電腦怎麼安裝印表機驅動程式 電腦印表機安裝驅動教程
- 腦機介面技術離“治療”還有多遠?腦機介面
- 網管型交換機和非網管交換機區別在哪兒?記住下面幾點
- 電腦自動開機是怎麼回事 電腦自動開機原因及解決方法
- 歷時兩年,馬斯克終釋出「腦後插管」黑科技,革新腦機介面馬斯克腦機介面
- 世界腦健康日:我國 "腦健康行動"啟動,把握"機會視窗期"
- 動手動腦
- Metaverse,腦機介面,虛擬世界與茅場晶彥Metaverse腦機介面虛擬世界
- 很遠又很近的腦機介面|AI的朋友(六)腦機介面AI
- 使用終端工具給你的電腦傳送彈窗提醒!
- win10如何給電腦設定開機密碼 win10電腦開機密碼設定Win10密碼
- 為什麼你的下一餐要交給機器人?機器人
- 從腦癱患者重獲交流到免開顱微創,腦機介面更安全了嗎?腦機介面
- 8年IT行業的過來人,有一些話想說給後來人行業
- 怎麼從u盤啟動電腦重灌系統 u盤啟動電腦重灌系統教程說明
- 新型腦機介面可將大腦訊號轉化為語音 準確率高達97%腦機介面
- 電腦開機提示ntldr is missing電腦無法啟動的解決方法
- 電腦開機提示自動修復解決方法 電腦開機提示自動修復怎麼辦?
- win10怎麼給電腦設定開機密碼 win10電腦如何設定開機密碼Win10密碼
- 平板電腦:給力的移動網際網路終端