深思考楊志明:多模態深度語義理解開啟人機互動新時代

深思考人工智慧發表於2018-12-29

深思考楊志明:多模態深度語義理解開啟人機互動新時代

彌補深度學習不足,楊志明認為類腦AI是“最佳人選”。

隨著雲、物聯網、網際網路網路、光網、寬頻、5G的發展,大資料燃料非常充足,未來的少人化工廠、虛擬社群、私人定製等服務都將是智慧化場景的最終形態,這使得如何實現更自然的人機互動成為當下十分重要的課題。

在剛剛結束的“2018硬科技行業領袖峰會暨鎂客網年會”活動上,深思考人工智慧CEO兼AI演算法科學家楊志明博士發表了主題為《多模態深度語義理解開啟人機互動新時代》的演講,他直言行業急需改進:目前的AI技術在產業化中已經有很多問題出現,比如深度學習非常依賴大資料,而人腦是依賴小資料的,看到一個新的人臉就可以很快的記住並認識他,但AI不行。那麼,我們就得思考如何讓AI模仿人腦舉一反三。

演講中,楊志明通過案例呈現做了深度的探討。

以下為楊志明先生的演講實錄:

各位聽眾大家上午好,非常榮幸跟大家分享一下多模態深度語義理解和人機互動

首先我介紹一下什麼是類腦人工智慧。現在AI概念比較普及,我們做AI的一線從業者發現了一些問題,目前的人工智慧大多數突破的是深度學習的方法,其實到我們逐漸的產業化過程中卻發生了一些問題。深度學習主要存在哪些問題?首先深度學習比傳統學習要好很多,但深度學習也存在一些問題,一些我們產業化和研究中遇到的問題,比如深度學習非常依賴大資料。而人腦是可以依賴小資料的,就好像我們看到一個新的人臉的時候,很快可以認識他/她,即便是小資料也可以做到非常好的結果。另外深度學習功耗非常大,運算速度也非常慢。人腦功耗非常低,執行速度也非常快。我們人腦可以舉一反三,但是深度學習機器學習沒法做到很好的推理,它必須依賴大量的資料學習資料的規律。

以上三點是類腦AI要去解決的問題,那麼如何使得我們的人工智慧不完全依賴大資料,小資料也可以執行,使得人工智慧可以實現快速的遷移?現在所謂的人工智慧都在聚焦某個場景,但其實怎麼模擬的人腦舉一反三,怎麼在目前AI小的計算資源下快速和低功耗的執行?這是我們要致力解決的類腦AI技術。

目前,從取得的成果來看,我們已經在多模態深度語義理解這塊做了突破。比如看一個電視劇,眼睛看畫面、耳朵聽聲音、眼睛看字幕,對不同事物不同狀態,人腦可以同時做理解。但AI還停留在識別與感知階段,人腦更多是語義理解,而且是多模態理解,這是我們專注的人工智慧技術領域。

其中,我們的多模態的深度語義理解,可以同時多模態的實現對文字與視覺影象的語義理解。舉例來說,如果傳統時代做AI識別,一個小狗在小樹蔭下面我們去識別的時候,發現識別分類兩個目標,一個目標是小狗,另外一個目標是一棵樹,基於視覺語義理解,一個小狗在樹蔭下乘涼,而我們人腦理解的是更加深度的理解文字背後的含義:一個小狗在樹蔭下乘涼,外面是炎炎夏日。這便是我們的多模態深度語義理解,我們把這個用在人機互動上產生了很多技術特點和變化。

拿自由切換場景來舉例,人與人交流的時候是可以自由切換場景的,比如第一個場景買一張機票,對方問“你要去哪?”我可以答非所問,“你放一點音樂我來聽一聽。我先想一想,我想明天下午兩點以後去。”但這句話其實是針對一個場景的上一個問題的答非所問,我們人類互動的時候就是這樣,大量的時候是預設,比如“日本國土面積是多少?”“中國呢?”所以在人機對話的時候也是大量存在預設的,我們用多模態語義理解現在取得的突破,相比同行的友商我們突出的競品優勢就是:人機對話能夠實現自由地切換對話場景,具備上下文流暢的多輪互動。

在醫療方面,我們切入的落地場景是智慧醫療的宮頸癌細胞學AI輔助篩查,這是一個剛需場景,宮頸癌是女性最高發的惡性腫瘤之一,每一位適齡女性都應該定期進行宮頸癌篩查,但與此同時,病理醫師新生力量呈現“斷崖式”短缺,國內醫療資源分佈不平衡,相關醫療篩查產品準確率低等問題的出現,遠遠無法滿足中國女性的醫療需求。我們通過“多模態深度語義理解”技術進行“排陰”,輔助病理醫生閱片,病理醫生只需要人機協同進行復核操作,從而提高宮頸癌篩查效率、降低病理醫生篩查工作量及工作強度,快速降低誤診、漏診。

為什麼多模態深度語義理解有技術優勢?舉例來說,在宮頸細胞中有一種叫腺細胞,這類細胞病變比較罕見,我們北京市總共才收集到600例資料便做出了非常好的結果,要知道腺細胞本身識別的話沒有問題,但他們會“抱團”出現問題,通過多模態深度語義理解技術,我們便可以發現它們的問題,並且我們的產品是國內唯一可以篩出腺細胞異常的產品。目前我們的iDeepWise.AI 4.0產品已經覆蓋70%第三方檢驗機構市場,同時與30多家知名三甲醫院建立合作。

此外,深思考人工智慧技術落地應用場景在智慧汽車領域,汽車人機互動和語義理解存在剛需場景。第一,實時性。不能完全雲端執行的場景,比如訊號不好時,雲端反饋回來比較慢,上雲反饋結果以後這個車可能開過去了,這類實時性要求比較高,我們通過端模式針對這個場景做實時運算。第二是車內個性化需求,包括針對使用者的習慣和愛好做人機互動對話,根據不同場景、不同使用者的習慣跟使用者實現人機對話。

車機這塊APP太多了,用語音識別產品還不夠。語音識別能解決聽見的問題,比如“我比較熱”,語音識別是理解不出來的,但加上我們多模態語義對話的產品就可以,“主人你是要開空調還是開窗?”這樣對話就可以延續下去。

深思考AI落地在智慧汽車場景這塊,針對於車內人機互動的場景,通過“多模態深度語義理解與人機互動”技術實現車內外場景的理解,從而更加主動、更加智慧地發現、滿足人們的需求,極大地提高車內人機互動體驗。通俗來講便是車外模組對當前車輛所處的場景進行理解,提高駕駛的安全和舒適性。例如我們通過8度攝像頭做車外視覺模組切換,我們現在車外視覺模組偵測到室外場景:夕陽西下,風景無限好。

同時車內外模組的互相協作,車內模組通過多輪跨域上下文理解、場景理解與提醒等多模態深度語義理解與人機互動技術將互動模式調整為適應當前場景的狀態,為使用者提供最大化的“懂你”的互動體驗升級。

目前我們已與國內外多家汽車製造廠商和主機廠商進行合作。

我們完全堅信深思考人工智慧的多模態深度語義理解技術與產品,深度結合場景需求,一定能實現人工智慧的大規模應用落地,未來實現處處可理解,萬物可對話!謝謝大家。

相關文章