當聽障人士實現手語自由:手語AI平臺的產業狂想

naojiti發表於2022-03-04

盼望著,盼望著,春天的腳步近了,雪容融也終於正式上崗,迎來了自己的主場——2022北京冬殘奧會。

本屆冬奧會不僅是運動員們的競技舞臺,更是科技公司“秀肌肉”的絕佳舞臺。諸多科技亮點之中,大家可能都注意到了,冰墩墩和雪容融有一位共同的“同事”——手語數字人。

2月4日晚開幕的冬奧會上,央視新聞AI手語主播正式上崗,陪伴聽障人士見證了一場場精彩絕倫的比賽。即將開幕的冬殘奧會,這位手語數字人也義不容辭,將披掛上陣,讓聽障人士實時感受冰雪運動的魅力。

創造豐厚的冬奧遺產,為國家、主辦城市、人民群眾帶來長期的、積極的收益,也是成功辦奧的重要標誌之一。在日常生活中,手語數字人能不能繼續發光發熱,為聽障人士提供服務呢?

我們關注到,3月3日,央視新聞AI手語主播的製作者——百度智慧雲曦,又推出“AI手語平臺”,通過分鐘級生成手語合成視訊、手語主播實時直播等能力,為手語服務的普及難題,提出了科技平臺化的新解法。

同時,百度智慧雲曦靈還發布了“AI手語平臺一體機”,讓一些需要硬體互動的場景,比如醫院、銀行、車站等公共場合,插電即可提供手語服務,快速部署無障礙視窗。

平臺化和軟硬協作的革新,正在讓手語數字人走上一條與社會價值長期對接、一同成長的進化之路。

科技巨頭們都在積極打造手語數字人,反映出哪些潮水的方向?數字生命與智慧技術的溫情加速照進現實,這究竟意味著什麼?

數字生命覺醒時:手語數字人的能力體系

百度智慧雲曦靈平臺賦予手語數字人哪些特殊能力?我們不妨以人類手語老師的標準來審視一下。

有一種“難”,叫朱廣權的手語老師,想要實時且準確地翻譯出朱廣權的妙語連珠,千挑萬選的央視手語老師有時也難免手忙腳亂。而在此前與朱廣權的線上pk中,這位由“百度智慧雲曦靈”打造的首個AI手語主播,面對朱廣權不斷丟擲的超高速順口溜,立馬就能做出反應,表現出流暢、精準的業務能力。

綜合來看,手語主播的華麗炫技,以及冬奧會上的紮實服務,來自百度智慧雲曦靈平臺提供的三個方面的基礎能力:

1.理解能力。

真實世界中,很容易受到噪音干擾,人類手語老師必須聽清、聽懂新聞內容,不然翻譯出來也可能是錯誤的,一通比劃猛如虎,但無法真正投入使用。

想要聽清,需要領先的語音識別能力。百度智慧雲曦靈平臺融合了百度自然語言處理技術,成熟領先的全雙工ASR(Automatic Speech Recognition)語音識別模型,近場中文普通話的識別準確率,能夠達到98%以上。

輕鬆搞定各種語音內容,即使段子手朱廣權的神級語速也不在話下,這為後續數字人的手語翻譯打下了堅實的基礎,使得AI手語平臺一體機更好地應用於不同場景中。

2.翻譯能力。

感知之外,手語老師要分析、歸納重要資訊,根據語句整體意思進行精煉和語序調整,將其轉換成手語語言。

一些廠商研發的手語數字人直接採用“手勢漢語語料”,好處是無需重新標註,節省時間,問題是生硬地按照說話順序將手語手勢連線起來,並不能算是“人類高質量手語”。

舉個例子,“我想回家”並不是將這四個漢字依次比劃出來,而是按照“家”、“回”、“我想”的順序來表達。

因此,想要翻得準,手語數字人必須學會自然手語語序。百度智慧雲曦靈平臺就基於“國家手語語法規則”,聯合手語語言學專家,特殊教育專家、天津理工大學等,邀請上百位聽障學生做資料標註,形成了近千萬的高質量訓練資料。

有了資料,接下來就是模型設定與訓練。基於百度多年積累的神經網路翻譯技術,設計了從中文文字到手語符號的翻譯方法,打造出了業內首個基於神經網路的精煉度可控手語翻譯模型,讓手語數字人的翻譯可懂度達到85%以上,媲美主流的中英,中日等方向的機器翻譯結果。

3.表達能力。

手語中,手勢必不可少,還需要表情、口型、動作等肢體語言的配合,幫助聽障人士更好地理解。比如疑問句“吃飯了嗎“,不僅要做出吃飯的手勢,還要配上疑惑的表情,眉頭皺起、眼睛睜大。

要讓手語數字人聲情並茂、手舞足蹈地表達,尤其是3D人像,有著不小的技術難度。一些手語數字人動作過快,有時又存在卡頓不連貫的情況。為了訓練手語數字人的“聲臺形表“,百度智慧雲曦靈平臺也是煞費苦心:

表情上,百度智慧雲用4D掃描資料,積累了超1萬個臉部面4D資料,藉助高精數字人“文字到形狀的跨模態面部表情生成技術”,能夠準確生成微笑、開心笑、wink、吹泡泡、白眼、思考等表情。口型合成準確性達98.5%,a和e這樣發音時表情接近的字母,都可以細緻的區分。

驅動時,通過個性化TTS,根據輸入的文字/語音資訊來進行自適應,結合多種預置動作,驅動數字人的脣形、肢體、表情、手勢等自動生成。多模態的手語表達,能夠傳遞出更豐富、準確、易於理解的資訊。

同時,百度智慧雲曦靈平臺搭載的開放域對話平臺PLATO-XL,是百度基於百億級訓練引數、多年搜尋及知識圖譜積累而訓練出來的,被認為是當前最大規模的中英文對話模型。通過它可以快速驅動數字人實現直播、動畫等內容,達到多場景下的實時溝通。

縱觀手語數字人的能力體系,不難發現,頭部科技公司相繼推出了自己的手語機器人,除了體現科技的人文關懷之外,還隱藏著技術發展的必然。

必須在算力、資料、演算法三方面都有強大的能力,在語音、視覺、NLP、知識圖譜等領域都有領先優勢,才能讓手語數字人真正覺醒在螢幕前、生活中。

百度作為國內AI 技術佈局更完整的公司,能最快地實現手語數字人的大規模應用,原因正在於此。

數字生命的平臺化複製:手語數字人插上產業之翼

在冬奧會和即將到來的冬殘奧會上的大規模應用,幾乎代表了現階段數字虛擬人的最高水平,是典型的數字生命:具備完成複雜目標的能力(通過手語翻譯傳遞賽事資訊),以及實時學習進化的能力(收集資訊、實時互動、做出回應,而非提前錄製)。

正如未來生命研究所的創始人:邁克斯·泰格馬克所說,數字生命是一種能夠自我複製的資訊處理系統,物理結構是其硬體,行為和“演算法”是其軟體。這決定了,手語數字人必須向軟硬協作、規模複製的方向發展。

3月3日,百度智慧雲曦靈釋出AI手語平臺和“AI手語平臺一體機”,或許正在為手語數字人插上產業騰飛的翅膀。

為什麼這麼說?手語數字人雖好,卻不能低估技術產業化的難度,至少有幾座大山橫亙在前面:

第一座大山,是效率之謎。

對於新興的手語數字人領域,製作難度大、週期長、技術門檻高,服務的群體相對較小,很多行業和企業在引入之前都會顧慮,會不會需要大量的人力財力成本,會不會效果不好沒人用,思前想後就是等等再說。要讓全社會聽障人士都享受到技術紅利,還是要尊重產業規律,降低新技術的應用門檻,真正讓手語數字人的製作“降本增效”。

百度智慧雲曦靈的手語數字人平臺,出現得恰逢其時。“AI手語平臺”具備“視訊手語合成”“直播手語合成”“文字轉手語”“語音轉手語”四大功能,可實現普通視訊合成為手語視訊、實時直播中增加手語畫面、文字翻譯為手語、語音實時翻譯為手語等多種效果。AI手語平臺可搭載在各類APP、網站、小程式中,讓聽障人士也能輕鬆實現線上社交、娛樂休閒、課程學習等各類需求。

同時,百度智慧雲曦靈還設定了三大平臺,讓手語數字人可以被快速、標準化、高效地生產和交付。比如在人設管理平臺上,根據不同的場景搭配設定不同的人設,比如銀行中引入的手語數字人可以專業、嚴謹,景區中使用的手語數字人則親和、活潑等,適應千行百業的需求。

平臺化、標準化、體系化的能力,使得AI驅動的2D數字人,生產週期只需要幾個小時,3D虛擬偶像一兩個星期就能開發出來,輕鬆飛越效率這座大山。

第二座大山,是體驗之困。

大家可能注意到了,在百度智慧雲曦靈釋出 “AI手語平臺一體機”之前,幾乎所有的手語數字人都是以軟體形式存在的。專門打造一款手語數字人硬體,真的有必要嗎?

從根本上來說,我們所知的所有生命形式都有著生物“硬體”的載體,有技術人員認為,“生命3.0”階段的數字生命,不僅要具備設計自身軟體的進化能力,還能設計自身硬體。

很多銀行、醫院等都在引入人形智慧機器人,來增加使用者的體驗感。具體到手語數字人,作為未來在社交、電商、直播、客服、導遊等領域的服務載體,企業與聽障使用者互動的關鍵入口,如果只能通過軟體來互動,顯然是不夠方便。

但是,開發一個人形手語機器人又涉及到一個相當漫長且複雜的產業鏈,很容易讓企業望而卻步。

百度智慧雲曦靈此次釋出的全離線一體機V3以及端雲結合一體機P3,搭載了“AI手語平臺”的核心功能, AI手語數字人可以像手機、電腦一樣被快速、批量生產,到線下生活的各個角落中服務聽障人群。

其中本地全離線一體機,在一些網路情況不佳的區域,比如偏遠的山村、景區等地,依然能夠進行手語翻譯、人像渲染等操作,提供文字轉手語、語音轉手語等服務。

端雲結合一體機,則通過雲端計算+本地渲染的形式,也能靈活地實現手語服務。

第三座大山,則是進化之難。

衡量一個數字生命的標準之一,就是具備自主學習、自主適應、自我進化的能力,這需要全面的AI能力支撐。目前,整個手語機器人的產業鏈還沒有被完全打通,儘管一些企業打出了“手語數字人“的概念,但只能在部分場合、部分視訊中露臉。

推動手語數字人在真實的產業場景之中不斷升級,是AI產業化中必不可少的一種能力。在中國的AI科技企業當中,像百度這樣具備從底層算力、開發框架到產業解決方案的全棧AI能力的公司,並不多見。

目前看來,百度的全棧AI能力融入到百度智慧雲曦靈當中,給數字人升級能力帶來了無限潛力,也將加速手語數字人這一“新物種“的全場景覆蓋。

通過與產業的深度融合,手語數字人也將變得越來越複雜和聰明,進化成為真正的數字生命。

目前,我國有近2780萬聽障人士,而手語翻譯老師只有1萬人左右,許多場景中無法快速跟上手語服務,在飛速發展變化的社會中,很容易造成新的不公平。

而百度智慧雲曦靈的AI手語平臺,讓手語數字人的規模化複製變得更加可行;“AI手語平臺一體機”,讓數字人技術帶來的體驗更加豐富和多元。

數字生命的平臺化複製,是社會責任不會變成空談的前提,意味著商業價值與技術普惠的一次和解,也預示著手語數字人市場的快速開啟。

AI產業的無形之變:手語數字人帶來的連鎖反應

平臺化和軟硬一體,規模複製的產業落地效率與直觀的體驗價值,讓百度智慧雲曦靈在手語數字人的競爭中,已經獲得了先發優勢。

技術無障礙除了讓殘障群體受益,還將給企業自身和整個產業帶來意想不到的收穫。手語數字人的普及,換來的是AI受眾的擴大和手語服務的延展,會讓許多我們習以為常的場景出現明顯的擴容與創新,並引發一系列連鎖反應。

首先,AI手語解決方案不斷複製到各行各業,讓聽障人士樂於去用,企業和機構樂於引入手語服務,讓手語數字人的落地場景會愈加豐富,在公益屬性、社交、傳播營銷等領域的價值將一一顯現。

其次,數字人作為公認的虛擬世界入口,帶來巨大的商業空間,已經成為網際網路科技企業的下一幕競爭焦點。搶佔數字人規模化生產的機遇,培養B端市場的信任感與忠誠度,有助於在接下來的市場競爭中佔據優勢。

更進一步,百度智慧雲曦靈在技術的領先性和全面性,決定了其有資格參與甚至主導數字人行業標準的建立,將吸引大量開發者和產業鏈上下游加速匯聚到生態體系內,推動技術不斷迭代和應用持續創新,預先探索數字人的商業模式,帶動雲端計算、AIoT等領域的增長,對於中國數字經濟的發展有著重要作用。

以前提到智慧科技,大家可能更多地關注獨角獸、投融資、數字經濟等巨集大概念,而現在,手語數字人這樣的智慧新物種,正在給殘障群體日常生活中的“小事”帶來便利。

從冬奧主播到AI手語平臺,百度智慧雲曦靈向世界證明,只需要開啟一個通道、接通一座橋樑,技術紅利就可以源源不斷地匯聚到那些需要它的人群當中。

許人類一個更美好的未來,這或許是AI故事裡,最溫暖人心的章節。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2864892/,如需轉載,請註明出處,否則將追究法律責任。

相關文章