人工智慧要做到什麼,才能算是擁有意識了呢?

機器之心發表於2015-12-18

本文由微信公眾號環球科學ScientificAmerican授權,未經許可,請勿轉載。


撰文 克里斯托夫·科赫(Christof Koch) 朱利奧·託諾尼(Giulio Tononi) 翻譯 郭凱聲 計算機技術正節節逼近擁有高階智慧的人類。2011年年2月,IBM 的機器人沃森在美國智力競賽節目“危險邊緣”中力挫該節目史上最出色的兩位選手而奪冠便是明證。然而,絕大多數人至今仍懷疑電腦是否真的“看清”了攝像頭前形形色色色的真實世界,或者通過麥克風“聽懂”了一個問題,儘管計算機處理資料的速度極快,但計算機對外界的感知與人類的意識一樣嗎? 那麼,我們如何判斷一臺機器是否具備了這種難以言傳的意識知覺的稟性?我們依賴於這樣一種認識:只有具備意識的機器才能主觀描述普通照片裡的場景是“對”還是“錯”。這種綜合判斷照片內容的能力——比如看見大象蹲在艾菲爾鐵塔頂端,就能夠知道這不合情理——是構成意識思維的一種基本屬性。但現在機器尚不具備這種能力:即使是讓滿滿一房間的 IBM 超級電腦聯手上陣,也無法判斷畫面中哪些內容合乎情理。 弄清有意識的機器具備哪些特性,能讓我們瞭解自己的大腦是如何運作的。而且,像科幻小說預測的那樣,當人類終有一天不得不學會與自己親手打造的另一類有意識的生靈共舞時,對機器意識的認識也有助於我們做好準備。另外,它甚至還可能幫助我們回答哲學家已經糾結數百年的終極問題:什麼是意識?

真人還是假人?

長期以來,哲學家一直在思考,人造模擬裝置——無論是希伯來神話中的假人,還是箱子中的機器——有沒有感覺?1950年,英國數學家阿蘭·圖靈(Alan Turing,他曾在二戰中破譯過納粹潛艇部隊所使用的 Enigma 密碼)發表了一篇論文,宣告人工智慧正式登上歷史舞臺。Mind 雜誌曾刊載過他的一篇文章,該文建議用“能否打造出一類機器,當你和它用電傳打字機(Teletype)交流時,你無法區分它是不是人類”這個更為實際的問題,來代替“機器能否思考”這個籠統的問題。 如今的圖靈測試(Turing test)是讓測試者用“自然語言”(即我們平時交流所用的語言)通過電腦螢幕與某人或某款軟體互動,互動內容可涉及任何話題。一定時間後,如果測試者無法確定對方是不是人類,那麼該物件就算通過了圖靈測試,它的智力水平至少可以說與人不相上下。這些年來,聊天機器人——即用來模擬智慧閒聊的對話式程式——一開始偶爾也會騙過測試者,但要不了多久就會被識破。 我們兩人對大腦如何產生主觀體驗頗有興趣,但我們不是以電腦科學家的身份,而是以神經生物學家的身份接觸到機器意識這個問題的。

我們對自願者的大腦或神經障礙者的大腦進行了掃描,或者是通過腦電圖記錄他們的腦電波。我們也對齧齒目動物和其他動物的大腦進行過類似觀察。通過這些觀察,我和許多同事逐步鎖定了所謂的意識神經相關因子(neuronal correlates of consciousness,NCC),即一種最基本的大腦功能結構,它們共同作用,足以引起任何特定的有意識感覺,例如欣賞絢麗的夕陽美景。然而目前這個研究領域仍然缺少一種普適性理論,我們要靠這種理論從原則上來評估大腦受損患者、胎兒、老鼠乃至晶片等能否體驗到有意識的感覺。 “意識的整合資訊理論”(integrated information theory of consciousness,IITC)提供了應對上述挑戰的途徑。

此理論涉及意識的一個關鍵因素。許多人都有一種直覺,認為構成日常生活經驗的各種主觀可感知的狀態,比如說每個人以極具個性的方式聞、看、思考、回憶的體驗,肯定或多或少與大腦的綜合功能有關,或者說與大腦把輸入感覺訊號同大腦中記憶的資訊,整合成一幅緊湊連貫的外界圖景這一功能有關。但我們如何能把這種直覺提煉成更加精確的見解呢? 為了適應這種精確化的要求,整合資訊理論提出了兩條原則。第一,意識獨特而翔實。這是因為每種具體意識狀態一旦出現,其他許多可能狀態就會被排除,而此狀態與每一種被排除的狀態都有著特殊的區別。試想你看過的所有電影中的所有畫面。每一幀畫面,每一次觀看,都是一個特殊的意識截圖;當你看到這幀畫面時,你的大腦就排除了其他數萬億幅可能的畫面。即使在黑暗的房間裡醒過來後睜眼一看(這似乎算得上最簡單的視覺體驗了),那漆黑的感覺仍在暗示你看到的不是光線明亮的客廳,不是茂密的熱帶叢林,也不是其他無數可能出現在你腦海中的任何一幅畫面。 第二,意識資訊是一個整體。當你意識到朋友的臉龐時,你不可能遺漏了她正在呼喊並且戴著眼鏡這兩個細節。無論你如何努力,你都不可能將你看到的內容的左右兩部分分開,或者把它們變成黑白兩色看。無論是什麼樣的場景,只要被意識到,它就始終是一個整體,不能被分解成若干可以單獨被感受到的互相獨立的成分。

意識的這種整體性源自於大腦各部分之間的多種互動關係。如果大腦各部分之間的聯絡中斷(例如在麻醉和深度睡眠中),意識就會削弱,甚至消失。 因此,具備意識的,必須是一個單一的、經過整合的實體,有大量可區分的狀態——這正是資訊的定義。一個系統的整體資訊容量,也就是意識容量,可以用該系統的資訊量與它各組成部分擁有的資訊總量相比超出多少來衡量。這個量稱為Φ;原則上任何系統,不論是大腦、機器人還是可手動調節的恆溫器,它的Φ都是可以計算出來的。可以把Φ設想為對一個系統的“不可約性”(即不能化簡為單純的若干部分的集合這一特性)的度量,單位為位元。要想使一個系統具有較高的Φ值和較高的意識級別,它的各個組成部分就必須是專業化的,並且整合充分,即各部分協同工作比各自單獨執行效果更佳。 如果系統各部分較為獨立,例如數碼相機的各個感測器或電腦記憶體中的資料,則它的Φ值必然較低。如果各部分功用相同,沒有走專業化的路線,因而出現冗餘,這樣Φ值也不會高。如果系統各部分僅是隨機互聯,它的Φ值仍然會相當低。但對於大腦的某些部位,例如大腦皮層,它的神經元之間存在大量連線,Φ值則相當高。這個衡量系統整合度的指標也可以用來評估電腦晶片。對電腦來說,只要各電晶體以及儲存單元之間的連線足夠複雜,那麼它就同人腦一樣可以達到很高的整合資訊水平。

除了根據機器的連線狀況測量Φ值以外(這非常困難),我們怎麼知道一臺機器是不是有意識呢?什麼測量方法可行?一種測試機器的資訊整合度的方法是,讓機器來做一個6歲小孩也能完成的題目:“這幅畫裡有什麼地方不對勁兒?”要解決這個簡單的問題,就得擁有海量背景知識,比現今高檔電腦在執行識別人臉、追查信用卡欺詐之類任務時所依靠的那點知識,不知多了多少倍。 各種事物或天然景色的畫面,其畫面內各畫素以及各事物間存在著千絲萬縷、極其複雜的關係,怪不得有格言云“一幅圖抵得上一千句話”。 人類視覺系統的進化、幼年期內的神經發育以及每個人一生的經歷,使我們能立即判斷出畫面內所有成分是不是組合得協調一致,各個部分的質地、深度、色彩及其相互的空間關係是不是合乎情理。 計算機在分析影象中的資訊是否合理時,必須依靠強悍的處理能力,這種能力遠遠超過了對資料庫進行簡單語言查詢的級別。說起玩高階遊戲,電腦可以讓人甘拜下風,但如果問電腦一張照片有些什麼問題,它就無計可施了。資訊整合度可以幫助我們解讀這是為什麼:雖然最新電腦中的硬碟容量遠遠超出了我們畢生所能記憶的東西,但硬碟上的資訊依然是未整合的,系統中的每一單元同其他元素基本沒有關聯。

透明奶牛

比如說,在你的電子像冊裡有一張辦公桌照片。但電腦並不知道,在通常雜亂無章的辦公桌上,左邊放 iMac 而右邊放 iPad 是否合情合理。更糟的是,電腦不知道雖然 iMac 和 iPad 擺在一起尚屬般配,但如果盆栽植物出現在本應放鍵盤的地方,就完全不靠譜了。此外,電腦也不知道 iPad 絕對不可能飄浮在桌面上方,亦不知道該照片左右兩部分搭配是否合理。在電腦眼中,所有畫素僅代表三個數字(分別對應三種顏色),它們胡亂構成一張織錦,沒有具體內涵。但對你而言,相片各部分之間在多個層次上——從畫素到物體再到場景——都存在千絲萬縷的關聯。這些關係不僅確立了影象中哪些地方搭配合理,也揭示出哪些內容之間格格不入。

我們的理論認為,由無數相關知識構成的整合網路把每幅影象都與其他影象區別開來,賦予它獨特的個性,並使我們能夠形成對周圍世界的意識。 同樣的整合過程甚至能讓六歲小孩知道許多不協調的畫面是荒謬的,比如人在地毯上溜冰,奶牛變得透明,或者貓追咬狗之類。而確定一臺電腦是否有意識的關鍵也正在此處。這些明顯跟日常生活體驗背道而馳的現象,證明了人類擁有精深的知識,知道哪些事件和物體可以同時出現,而其他絕大多數則不行。 測試電腦如何解讀影象,並非必須採用向機器輸入測試問題這樣的傳統的圖靈測試法。其實你只須在網上隨便找幾幅圖,沿垂直方向將每幅圖的中間塗黑,並用剪刀剪開,然後隨機將左、右兩部分拼合起來。這些合成影象一般都左右不匹配,只有個別圖片的左右兩部分都來自同一張圖。電腦面臨的挑戰,就是要把左右匹配的圖片找出來。把影象中央塗黑,是為了防止電腦使用如今那些低階的影象分析技巧,比如說考察被拆散的各部分影象之間的紋理或色彩是否相配。這種基於拆分影象的測試方法要求電腦具備先進的影象解讀技術,並能夠推斷影象各部分的搭配是否和諧。 另外一種測試則是將若干物體放進幾幅影象中,使得所有影象看起來都還正常,只有一幅影象有問題。接受測試的電腦必須找出這個異類。榔頭放在工作臺上很自然,它絕不該懸在半空。iMac 前面放著鍵盤也理所當然,但如果是盆栽植物,那就不合適了。 許多計算機演算法是通過收集顏色、邊緣或紋理之類影象特徵,並採用低層次統計資料進行匹配。這些方法或許還能應對單一測試,但在多種不同影象測試面前,就無能為力了。

這些測試方法離真正實用還有一段距離,但是,在應用這些方法後,我們發現,人類的意識感知功能涉及海量的整合知識,而相比之下,機器視覺系統的知識實在是太過狹窄和專業化。不錯,現今的電腦可以從儲存有上百萬張臉部影象的資料庫中搜尋出某個疑似恐怖分子的面孔,但它們看不出此人的年齡、性別和種族,也看不出他是在皺眉還是在微笑。如果照片顯示此人正在與喬治·華盛頓握手,那麼電腦也不會知道這張照片多半已經被人PS過。而對於一個有正常意識的人來說,只要看一眼照片,上述疑問全部迎刃而解。

瞭解這些後,我們近期可以期待些什麼呢?如果某項任務可以獨立出來,不與其他任務有牽連,那麼它可以由機器來承擔。高速演算法能夠飛快地在龐大的資料庫中進行搜尋,並在國際象棋比賽和“危險邊緣”節目中戰勝人類選手。複雜的機器學習演算法經過訓練(即讓電腦接觸大量人為整理過的相關例項)後,可以完成面部識別或者偵測行人等工作,效率比人類更高。我們可以輕鬆地想出許多場合,讓機器人去完成日益專業化的任務。先進的計算機視覺系統日臻成熟,不出十年,一種可靠的、基本上自主的駕駛模式將成為可能。 

但我們估計,這類機器視覺系統還無法回答與汽車前方景象相關的簡單問題:在高速公路上遠望,芝加哥那一座座摩天大樓的輪廓線是不是有點像一片燒焦的樹林籠罩在薄霧中?這些系統也不會意識到,加油站旁邊的一隻巨型香蕉是那麼的不協調。要回答這些問題,以及無數其他問題,或者要看出那隻香蕉的問題,需要使用不計其數的專用軟體模組,但誰會為這些特殊問題而事先製作一大堆專用軟體模組呢?如果我們猜測得不錯,在未來,儘管基於專用並行模組的高階機器視覺系統會使汽車駕駛基本實現自動化(同時也可以簡化其他許多日常工作),但仍然不會有意識地感受到出現在它前面的場景。 但我們也可以設想另一類機器,它可以把世上各種事物間無數錯綜複雜的關係,整理成知識並納入高度整合的單一系統中。如果問這類機器“這幅圖有什麼地方不對勁兒?”,它會自動給出答案,因為圖中任何與現實不符的地方都不可能滿足系統中的內在約束條件。 這類機器或許可以從容應對那些不能輕而易舉分解為若干獨立任務的事情。由於具備整合資訊的能力,它應該會有意識地感知某一場景。在我們看來,為了實現高度的資訊整合,它們不妨借鑑哺乳動物的大腦結構。這類機器在接受上述各種測試時將輕易過關,從而能與我們共享意識這個大自然賜予人類的最神祕禮物。


本文由微信公眾號環球科學ScientificAmerican(微訊號:huanqiukexue)授權,未經許可,請勿轉載。

相關文章