作者介紹

李德毅,中國人工智慧學會理事長,中國指揮和控制學會名譽理事長,中國工程院院士、歐亞科學院院士,1983年獲英國愛丁堡海里奧特·瓦特大學博士學位。

1b70affdf88b6a90b8bfe2b8a66c5a14

李德毅:各位同仁! 我的主題想把大家帶到一個激動人心的方向,就是關於腦認知的研究。我們出了一個很難的題目,叫做腦認知的形式化,我想談一談我們在這方面的探索。

腦認知的神經學方法

88a55e1eb1e77b08fbc0b8649350135c

腦科學是當年人們重點關注的方向之一,怎樣解開腦科學屬於世界的難題。大概有兩種方法,一種我們叫做認知神經學。

a54216e7222920dfe844887354fc18d3

生命科學家們用對生命,尤其是大腦科學的研究,提出怎麼樣把人的智慧找出來,以及用什麼樣的測度去研究這些特定區。

409f2393e1050bab65b0b8844f1d156d

眾所周知,人腦是世界上最複雜的器官,有多種尺度的解剖組織之分。

8c96bf306c48061ad2cdfc5464467be0

不管你怎麼分,你可以把它分成116個或252個功能區,甚至更多。當然有一條大家是共識的,只研究大腦某一部分的時段正在離去。左右腦分工,應該說已經有一定程度的共識,好比人們常說左腦理性,右腦感性。

3c3af8b96f1f3174b138ef4821342456

人腦總共不到4斤重,為什麼這麼厲害?我們刷臉,用指紋識別人,最主要的方法就是把腦做一個掃描。不同人的腦都不一樣,所以可以用人腦來識別。

1675d51180a0d0263588cefd6cc967a1

腦認知是對感知和記憶的編碼表達以及對感知的理解和想象,與腦生理和腦成長史有關。大家知道愛因斯坦很聰明,他的大腦有更多的記憶功能,一般來說是2200平方釐米的記憶區。

971723766f1a87e445da51391df545cb

生物學家嘗試種出大腦,而現在脈衝神經網路模型,成為腦認知神經學研究的熱點。

b09021968e04dfaa77f79fc2d4e70eac

任何學科在什麼尺度上形式化至關重要,尺度越細,結構越複雜,形式化越難。

e3c1aea7c2952a2a230eeaa90a701ef8

我們研究腦認知的形式化,可以用多種尺度。微觀上看它的基因和蛋白質,巨集觀上看腦區域網和認知行為,介觀上可以研究神經網路。

09b83747d8a8dc342b2bbf965639b898

2013年奧巴馬啟動了美國腦計劃,提出了九個點,左邊五個,右邊四個。這九個點反映了美國的腦科學家們,從不同程度上研究腦認知。

4d922f4f654b94dbd123592bf2375bad

我把九個點分別放在尺度上來看,有六個點是在不同尺度上的。中國的學者應該從什麼尺度上研究呢?我覺得可以借鑑一下。這是美國的腦計劃。

fdcaf4d7e9c747b04e41fc11a80d2a1c

如果僅僅在微觀研究生物腦,會不會研發出長頸鹿的腦,我們覺得是有風險,尤其是人們對夢境、幻覺、睡眠等腦功能相關的機理,到現在還沒有一致的認識。所以很可惜,我們這次大會腦科學家、生命科學家來的太少,我剛才跟孫凝暉理事長說下次可以邀請一些人來。

腦認知的物理學方法

43a834ad9f3244b8c424bcc385c2acf9

還有沒有別的方法呢?我覺得一個重要的方法是腦認知的物理學方法。

29a896c3f31ad1c948408c2706b85efa

人們都說,人腦就是一個小宇宙,世界有多複雜,人腦就有多複雜。能不能用物理學的方法來研究腦認知呢?

8597fd46eaa7a785fb56018ffd62d8c8

我們看一個事實,狼群裡面養一個狼孩,過了生長髮育期之後,這個狼孩回不到人的狀態。

983773d98c99dfaa757a75a1c2e118a8

這就充分說明一個真理,人腦成長和認知的社會性。我們不能只研究生物腦的遺傳特徵,更要研究腦後天的認知屬性。

0d38f83133d4e13b08cfb4675a78f3df

像我這樣的中國學者受了毛澤東思想的薰陶,我1963年在大學裡面,“人的正確思想是從哪裡來的”是毛主席的重要文章。他提出了一個基本觀點,感覺到的東西你不一定能深刻理解它,只有深刻理解的東西你才能很好的感覺他。這就是毛澤東同志說的,我覺得這話說的有道理。

02d35b6aecb874b7aad3fa7be861d3eb

作為主觀世界的人腦如何反映客觀物理世界,這是一個哲學問題。人腦如何從外部環境獲得知識和技能,如何解決未知和創新。應該說沒有哪一個科學像人工智慧一樣更加靠近科學。

1e648ccda59746b1e3467ace10ec26b5

現在以物理學為基礎的神經成像技術,比如說訊號級、符號級、語義級、人腦級同樣給我們劃出了不同測度方法。

b0594dd007eedbddbedb67e5093648aa

目前我們的核磁共振,更多是從微觀訊號和巨集觀訊號上再現腦認知的過程,我們IT工作者也做了一些事情。

8956bc0a10d615e17d72e35eac03e438

比如說我自己1995年拿到了第一個發明專利。我想用雲模型來填補資料和語義之間的鴻溝,提出用期望、熵和超熵來定義。

59dac456cf455581cc2bd4bc0f666ed8

尤其重要的是,我們提出了雲模型,還提出了物理學中最重要的方法叫做場。我們把這個場引申到認知科學裡面來,把它叫做資料場,用資料場的辦法形成了社團發現、成員角色發現等認知的物理學方法,我們希望大家能夠看一看。《不確定性人工智慧》已經在十多個學校開始研究生教學,我們希望更多的人來豐富我們的雲模型資料場。

b88640f108662d252badf9b476f83a8f

如果把奧巴馬剛才那九點,還有三點拿過來,就是大腦成像技術、人腦資料收集和知識傳播與培訓。我們提出的雲模型和資料場,大概在這個尺度。所以我今天報告的前沿部分,主要就是講兩個方法:認知的神經學方法、認知的物理學方法都有不同程度的描述,我們究竟應該從什麼角度來切入呢?

104c0bc2967996acc84327487351a1fe

我個人認為,腦認知是生物屬性和社會屬性,先天屬性和後天屬性相互結合而產生的整合性認知過程。研究生物腦在認知過程中的成長與進化,可以稱之為腦認知的正向工程。腦認知的社會屬性,可以稱之為腦認知的理想工程,如認知物理學方法,存在著生物學所謂的生物隔離現象。然而一旦探索生物腦和電子腦,如果能夠形成雜交優勢,將來會猛不可擋,這是我講的序言部分。

腦認知的形態和統計演化

ec2d96858efb09378b8cf2c858b5bc67

下面講第二個問題,腦認知的形態和統計演化。

腦認知的主要外在表現,主要是聽、說和看,如何聽說我們把它叫語言認知,如何看我們把它叫影像認知,這兩者什麼關係呢?語言認知可以理解為對影像認知的語義標註和抽象。認知主體的差異性,大人和小孩看到同樣一個影像,開車和不開車看到同樣一個影像,效果非常不同的,怎麼樣想呢?難道就是計算嗎?我在這個會上提出來不同觀點,我認為怎麼想,除了計算,還有兩個重要的認知,就是記憶認知,記憶認知很重要,可能不亞於計算認知。

我們對認知技術已經耳熟能詳,還有一個認知也不能忽略,就是互動認知,這三者是並列的、互補的,現在發生在同一個智慧體身上,三位一體形成計算認知和互動認知。當然,腦認知的本質是記憶認知,是動態演化的過程。我個人認為記憶被我們忽略了,腦認知的核心是記憶,而不是計算。人類的記憶力強,記憶量大,就是所謂的聰明。

a20ece499f960cf7580ca0dded028c20

尤其重要的是遺忘,遺忘也是人類智慧的顯著表現,否則人腦不堪重負。

267643b51487d4e747fcf75fe0139b14

腦對客觀世界的瞭解,在反覆的感知、認知和行動的過程中,形成相對穩定的認知。腦認知是個動態的演化過程。

88421797898c424415252f9da43bfba5

當然記憶並不是一句話可以解決,至少我們可以分成三大塊:瞬間記憶、工作記憶和長期記憶。以往是對記憶的不能再認,或者是錯誤再認。

9b663ab6e8aa338560df88999bad1b06

但是記憶不等於儲存,它伴隨著一定的取捨,取捨的過程就是計算、簡約和抽象。

829d0c93c73539afcc28bdebed6cc82a

記憶、計算和互動三者同時發生,我想在這裡再重複一下我們數學的基礎知識,大家知道卷積,尤其是卷積神經網路。卷積是說一個靜函式跟一個動函式進行卷積。那麼會產生很多奇妙的結果,卷積在大學本科裡面我們就學完了,我想在這裡面重申一下卷積的數學性質,翻一翻已有的書。

4814cf9849040744971da2d9812e6da8

我想更多的可以以實際例子告訴大家,什麼叫卷積。一個鐵絲不停的彎曲意味著它發熱了,鐵絲此時此刻的溫度是f(t)跟g(t)的卷積。

靜脈滴注是注射的離散化,給藥函式是f(t),衰減函式是g(t),累計效應應該是f(t)跟g(t)的卷積。我告訴計算機工作者們,你們要了解卷積,要了解卷積神經網路。

2414f684f8a6f1975378931ef7e56f28

下面是我的創新,眼睛看到的一幅影像是待認知的函式是f(t),人腦中已有的認知可以對該圖加以理解、標準和消化,這是g(t),當前尚需認知的函式是f(t)跟g(t)的卷積。所以不知道我這樣一個公式,在全世界的雜誌上能不能登一個SCI的論文。

938a9b74c08587d71a4215f1e3dcbe24

我們用資料場的方法研究了記憶、保持、再認與恢復四個過程。雖然時間而淡忘,下一次遇到這個人又錯發,再恢復。

88a05af93e1c66d502def61db4232caa

用資料場的方法可以很好的描述記憶過程,人們知道感覺記憶主要是前腦,感覺記憶、工作記憶、長期記憶是在腦區間並沒有明確的分介面,只不過我們形式化的時候拿它來說事而已。

長期記憶是短期記憶反覆性抽象,時間越長越寬泛,越巨集觀,越戰略。因此我們用這樣一個很重要的圖,來說明感知記憶怎麼樣對工作記憶做演繹的。

b7e7bc43be7e10162c9a567a5a73aed4

但是無論我們的計算多麼複雜,人腦真的會做複雜變化嗎?我覺得未必,這是人腦的形式化創造而已。我個人認為在一個生命體當中,認知計算也許只有一種演算法。

d51a028f4f4f067e0ad9b825f7bd888c

下面講一講互動,互動是三大認知的重要方法,我們把它叫做互動認知。我們看到了很多機器人的問題和回答系統,因為問一個問題它答不出來了,因為沒有互動智慧。

e0e905ee789c9323eb8bfed8d8b725fb

互動不但在神經源之間,還包括在整個人腦和外部世界之間,跟自然人和機器人,外部世界的互動進行相互學習、啟發,使得自己更聰明。如果沒有這種互動,自身難以獲得這樣的認知。

再講一個知識點,腦的自定位和自導航,我們把它叫做iSLAM。人不斷的把外部世界放在自己的座標系做影射,這個很重要,人腦裡面甚至有一定的盲導航功能。當然小腦發達程度不一樣,個人能往前走的程度也不一樣。腦認知的座標系按照現在物理學定律應該是對數極座標系。所以我們的視力表,第一個E字那麼大,最後一個那麼小,它不是線性關係,而是對數關係。

視覺認知是腦認知的主體,所以卷積神經網路可以自定義影像,這是它時髦的原因。但我們知道長期以來,我們搞計算機影像處理,基本上做了先視後覺,特別是任務驅動,圖象處理與技術無關。如現在給的卷積神經網路。實際上人們有時候是視而不覺的,磕睡了放電視也看不下去。或者電視劇一邊看,一邊想,這是更多的情況。還有一種是有目的找一個大鬍子和戴眼鏡的老頭,他是有目的的。我們要研究四種不同的方法,腦認知的過程很複雜,視網膜很豐富,一直到經過神經傳輸形成視覺,這張圖告訴我們一瞥之間到底發生了什麼。

在人腦的視覺神經認知過程當中,能夠一直保持影像內容的突破關係,這點尤其值得我們重視。大家看看上面這張圖,這張圖凡是搞卷積神經網路的都是耳熟能詳的。一個32×32的畫素圖怎麼變成68×68的,然後再卷積,最後得到一個訓練分類器,對於這樣一個卷積神經網路,今天我想講一講我對它的理解,我想講它的三大侷限性,雖然好但是有毛病。

第一個毛病,到底多少是深層次學習。多少個卷積核,每個卷積多大,怎麼樣來進行特徵提取,都有太多的隨意性和適湊性,而且不能保證拓撲結構引數的收斂,這是一個最要命的問題。

第二個毛病,由細尺度特徵到大尺度特徵的層層提取,只有前饋沒有反饋,已有的認知不能幫助當前的視覺感知和認知,沒有體現選擇性。

第三個毛病要求海量訓練樣本,一萬個樣本做了半天,最後能夠識別一百個東西。一萬個樣本你讓我指定,最後識別了一百個,不划算。尤其從樣本的均等性,沒有反映認知的累計性,所以我覺得在座的這麼多聽眾,如果你們覺得我的報告值錢的話,這張片子最值錢。

7a98ab80a97f817ff7ef9b8c0dc00e33

我們看看發展半個多世紀的圖靈模型和馮諾依曼計算機,充其量只具有計算機智慧。計算機的架構中,計算、儲存和互動相互分離,導致內容不同區域的資料頻繁訪問,以及硬碟和記憶體間資料的頻繁訪問。

而腦認知的構成單元,應該同時具有記憶智慧、計算智慧和互動智慧,大大降低能耗。

機器駕駛腦

d039a29f4b38d7ea40300e80de5a5275

按照這樣的認知,我們開始構造機器駕駛腦。我們知道駕駛這個行為對於一個高階駕駛員來說,也是發生在十幾毫秒,幾十毫秒的事情。我們的計算機可以在非常高的速度下,因此我想如果能夠在納秒進行感知,能不能在巨集觀上模擬駕駛行為,在毫秒、十幾毫秒中進行呢?我們認為可以做到,從三位一體的認知來說應該是可行的。

014b67e3ea8b37d96065a6bfd8db0cd7

當然我們還在積極尋找新的替代物,駕駛腦認知的形式化,最關鍵的是要懂得忽略和聚焦,懂得抽象和分離。如果這兩個不懂得,那麼你就要做太多的遺忘。

cf7c58592a4c4f2f52c8cc424f0bbdd6

舉一個例子,先視後覺是我們的拿手戲。視而不覺你做不做?那是一定要做的。一邊開車,對一個機器駕駛腦而言,它對自然風景、建築風格、行人、年齡、姿態,尤其是不是美女一概熟視無睹。我看了很多做人工智慧,做機器駕駛腦識別行人的走姿,不管是彎著腰走或者是挺胸走,我都不能軋著你。邊視邊覺,根據剛才已擁有的路權,關注路權的變化。先覺後視,利用記憶,主動感知。

31b7a31f5718b8fb6b40477a0a0532e2

我們在做駕駛腦的各個當中還有一個強項,把駕駛協調性分為一個小腦的自動化,在長期的智慧駕駛實驗活動中,我們嚐到了這個甜頭。

4d8d3ead332143cab7a6a3cf9c6f0c5b

熟練的司機開車如同自己走路一樣自然,就是按本能辦,這叫做本能控制。因此在我們的駕駛那裡面有很多記憶棒,入口記憶棒,特定記憶棒、困境記憶棒,事故多發情景記憶棒等等。

8a0b4e00a21b1db6b773739840a73d3c

我們把性格、情緒、瞬間記憶、學習和思維、動機,把它聚集在一個卡上,動態感知、態勢分析、自主決策、精準控制、線上執行,強調了長期記憶、工作記憶和感知記憶。

74a6a5850159849aee054f2bb0411618

把這張圖再開啟,大概是這麼一個機構,一個智慧車有四個大類的感測器。雷達感測器,尤其是鐳射雷達和超聲雷達,現在我們正在用紅外雷達。攝象頭也很豐富,要看車道線、路牌、紅綠燈和交通警,因為他時不時打手語。第四大類感測器就是GPS北斗,我們形成一個駕駛態勢圖,對這個駕駛態勢圖不斷的感知。你用同步定位或者是影射技術,把我們頭腦中的駕駛地圖進行匹配,形成一個自主決策的方案,這個自主決策的方案告訴我們的小腦,控制器去執行,這就是我們智慧駕駛腦的功能模組。

9a722d1d3d7498cfa0e67201f01672eb

前面一部分主要講感知,後面一部分主要講認知在執行,尤其我們強調了長期記憶、短期記憶和感知記憶的不同作用。我們對一個特定問題,按照我們圖靈獎獲得者的文章,它的結論是要注意解決特定的問題,在這個特定問題上,你只要把感知、認知、行動落實下去,我們落實的結果變成智慧駕駛腦。

bdc425e4a06ffe3c929d4f04e96ceb22

現在我們正在跟孫凝暉技術組合作,想把這個卡用微電子實現。這裡面有記憶認知、技術認知和互動認知。尤其是有三個不同時間的記憶,體現到我們總體設計過程,利用微電子技術,採用GPU+CPU研發機器駕駛腦。

acc3fcc88ab24e50a00839e27b17de84

2012年11月24號,北京到天津的無人駕駛。新聞、報紙報導我們這個車,說是中國的智慧車也上路了,當然Google智慧車的上路我們更加驚訝,北京到天津的時間我們連GPS都沒有用,就是利用視覺加雷達,就完成了這次100多公里的無人駕駛。

28333179b22a9eb832d006859bf95a4a

2015年我們跟上汽做了新概念車,這是用雷達和GPS導航實現了再一個10公里繞樁實驗,人開從頭到尾40分鐘,用我們無人駕駛十分鐘多一點,為這個專案上汽給了我們840萬。我們在基金委答辯才給我們300萬,我們更加清楚的體會到企業是創新的主體。

f0d9fb683e304984954a05f7c551f8cf

2015年8月29日,宇通智慧車參加了實驗,這是我的一個學生,我們在車上講這好像是中國第一輛大巴上路,現在我們終於拿到了第三方證明,這是世界上第一輛公交車上公路。我們很高興。智慧駕駛很可能發展成為飆車機器人冠軍的比賽場,我們希望再用三十年用智慧車,進行飆車比賽。我們能不能把這種測試發展成為後圖靈時代的市場。

機器腦認知形式化的普適性

f257a46044cce04442a5a8d041b687ee

下面講最後一個內容,這樣一個駕駛腦的構造,有沒有普適性呢?對其他方面是不是有借鑑作用呢?

6fa32cdeaee5afdef05e5157311a76fb

我們做了一個嘗試,機器腦認知形式化的普適性,如果變成一個特定問題,機器駕駛腦的形式化能不能有用。

c148f584d7cd8b69d3e3078e4d47af52

看看我們這個,基本上還是那個模組,我們把它改成一個農業問題。

7410ef4a938a009ebea75185c8b512a1

對苗圃栽培技術做一個機器腦控制,動態感知就變成了墒情、氣候、病蟲害的感知,在這裡面攝象頭仍然起著重要的作用,苗圃長勢的分析相當於路權態勢的分析,灌溉、殺蟲,為什麼不可以用機器腦來控制呢?如果我們有了感覺記憶、工作記憶,我們是可以做到的。現在我們正在和北京市的園博園談判,希望把我們的駕駛腦普適成為苗圃控制腦,控制園博園的肥水刻意的灌溉。

ec3ee446ed2f5a90e26211da99eb8d1e

還是剛才那張圖,我們在做另外一次轉移,大家都要研究腦認知跟人工智慧怎麼交叉,我想提出一個觀點,能不能研究典型的痴呆病人的語療機器人,因為人老了痴呆是很正常的。

970908d42009a2fdb6d0b7fbd7eca333

我們搞一個語療機器人,最後變成一個語音跟它聊天,這多好。並不是我們一定要寫一個文章發表才好,解決我們的精神疾病、認知障礙更重要。

df53c7c7c9bfaa9205fd651f1e83c43b

我們把特定問題改變成這樣一個語療機器人,我想告訴大家在認知障礙中,最大的是青年人的自閉症,中年人的抑鬱症,老年人的痴呆症,這些人加在一起,機器人如何自閉、抑鬱和痴呆?這樣的大資料每一個精神病院都有,能不能研究一個可穿戴裝置,提高人的認知能力。

593557d11387a8918e5c3ad5b6214a6c

最後我用一張片子來總結基本觀點,如果人腦特定問題域的認知能力可以先區域性的形式化,哪怕在微觀上不具有組織結構的相似性,如駕駛、栽培、聊天等,當千千萬萬的特定問題域的認知能力區域性形式化之後,用人工智慧技術構建千千萬萬特定機器認知腦,並且通過移動網際網路、雲端計算和大資料,是否可以倒逼併形成一個人造生物腦呢?我們可以嘗試,謝謝大家。