在對話中理解蘇大強們:語音互動的未來會是老齡化+個性化嗎?

naojiti發表於2019-03-23

在最近的熱播劇《都挺好》裡,“作精老父親”蘇大強憑藉他的各種金句在蘇氏男團中成為了毫無疑問的C位。

在這部電視劇中,除了討論所謂“原生家庭與子女”成長的問題以外,同樣也暴露了年輕人與老年人之間的溝通問題。

蘇大強時常出現的詞不達意,重複地說著“我就要錢”,沒完沒了地抱怨他人,在劇中或許意在體現人物性格。但同濟大學最近的研究告訴我們,如果類似的情況發生在生活中,則有可能是一種病理性的反映。

理解老齡語言能力退化,AI可以做到這些事

老年人說話重複、詞不達意、化繁為簡,似乎已經成為了一件很常見的事。遇到這種情況,我們往往只會認為對方是“老了”“糊塗了”。可同樣是老年人,很多人在九十幾歲的時候,依然思維清晰、口若懸河。

同濟大學主辦了首屆全國老年語言學講習班,其中專家提到,嬰幼兒學語的過程獲得了大量的關注,可老年人語言退化的過程卻不被人重視。

而同濟大學老齡語言與看護研究中心得出結果稱,在生活態度積極、身心腦無臨床疾病的老年人與患有一些老齡疾病的老年人之間,其語言表現有著很大的差異。

那些生理年輕比實際年齡更年輕的老年人,語言表現相對正常完整,邏輯也更為清晰。但那些患有老年病的老年人們,則更容易發生發生語蝕(語速減緩、音域窄化、語言量減少、手勢增多)、語誤(詞不達意、口誤)甚至產生語言障礙直到最後完全失語。

也就是說,通過老年人語言退化的研究,可以幫助我們更好地認知老年人身體健康狀況的變化,甚至可以幫助我們從多種角度認識阿爾茲海默這種至今尚未找到解決方案的疾病。

在這一過程中,我們不得不依賴於人工智慧的幫助。那麼在研究老年人語言退化上,AI究竟能做到些什麼呢?

從同濟大學和AI獨角獸的合作上,我們大概能總結出以下幾點。

第一, 通過深度學習對老年人語言特徵進行提煉量化,讓詞彙量減少、語義重複、口誤這些偏於感性認知的概念變成可以評分化的理性標準,方便進行下一步研究。

第二, 通過多模態研究將老年人的語言資料與心電圖、腦電圖等等其他資料結合起來進行綜合性研究,高效地將語言衰退與其他疾病表現聯絡起來,發覺其中的關聯。

第三, 建立方便易用的NLP模型,幫助醫生可以通過一段語音來判斷老年人的語言退化狀態,甚至進一步推測其健康狀態,提升診療尤其是遠端診療的效率。

老齡化社會即將到來,語音互動還沒有準備好

當然,目前我國對老年人語言退化的研究還處於最初級的階段,剛剛開始建立老年人語料庫。相比之下,美國在1999年左右就已經開始在進行類似的工作。

AI企業參與對於老年人語言的研究,不僅僅有利於醫學的發展,同樣也對AI企業自身具有重要的意義。

如今我們已經達成了兩種共識,第一,中國正在“堅定不移”地步入老齡化社會,國家統計局日前釋出的《2018年國民經濟和社會發展統計公報》顯示,去年我國60週歲及以上人口首次超過了0-15歲的人口。第二,AI互動的未來一定會以語音為主,以谷歌為首的科技巨頭正在將智慧音響變成各種形狀塞進家中每個角落,就拿智慧家居場景來說,以語音溝通各種IoT裝置,已經成了可以預見的未來。

而在AI的語音識別訓練中,語音音域、對話邏輯等等的變化,都會影響識別的精準度。這就造成了一個問題,如果我們沒有充足的老年人語音處理經驗,很有可能到幾十年後,滿屋子的智慧家居都無法與我們順暢溝通。

想象一下,未來的空巢青年變成了空巢老人,在想喝一杯手磨咖啡時很可能很難完整的說出“小X小X(智慧音響喚醒詞),讓咖啡機為我製作一杯咖啡”,而是隻能重複著“手磨咖啡”這幾個字,而智慧音響則一臉懵的嘗試著與我們不斷進行多輪互動:

“您是否要搜尋‘手磨咖啡’?”

“您是否要訂購‘手磨咖啡’外賣?”

……

即使在今天,對於老年語音互動的研究同樣也可以在老年陪護、老年心理健康等領域發揮作用。就像面對如今大量老年人獨居這種問題,就可以利用熟悉老年人語音互動模式的AI來與老年人對話,紓解他們的心理問題、保持他們的語言能力。

而在這一領域,至今仍是一片空白。

語音互動的縱與橫

不難看出,如今NLP領域中關於語料的累積和處理,已經呈現出了橫向和縱向兩種態勢。橫向來看,是漢、英、日、俄以及各種少數民族語言、小語種等等語言型別。縱向來看,則是一個人從童年到老年整體語言能力的發展變化。

相較之下,更多時候我們仍然還停留在對NLP語料進行橫向耕耘的階段,不斷地深挖語義,儘可能去實現足夠自然的語音互動。但縱向的語言能力變化,同樣對語音互動效果有著巨大的影響。

就拿兒童語音識別來說,兒童音域與成年人不同,語言能力以及對智慧產品的認知理解也與成年人有巨大的差異。在谷歌助手、亞馬遜Echo這類產品身上,都曾出現過兒童語音識別不準確的問題。目前已經有不少創業公司,例如來自愛爾蘭的SoapBox Labs已經開始著手去建立專屬於兒童的語音識別演算法。

其實個體語言能力的差異何止兒童、老年人、成年人這三個維度?不同性別、不同受教育能力、不同細化年齡階段,都可能決定其語言能力的細節差異。

在未來,當語音互動真正進入細節化競爭時,很可能出現的是語料資料處理平臺化+語音互動方式個性化。

即將語音互動習慣分成幾大類,如男性/女性或成人/兒童/老年人,再在冷啟動時通過幾句簡單的對話互動獲取個人使用者語音資料,從中再分析出一些更細化的習慣,並在日常使用的過程中不斷進化。

這一整個過程,將會像演算法推薦資訊平臺習得我們喜好時一樣簡單。

機器對人語言互動方式的細化理解,終有一天會超過人類彼此之前的理解。就像如今機器翻譯的效率正在逐漸超過人類一樣。

等到那一天,我們將不會再擔憂自己成為“蘇大強”,我們的口是心非與胡言亂語,AI能聽懂就好。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2639167/,如需轉載,請註明出處,否則將追究法律責任。

相關文章