朱鬆純:走向通用人工智慧——從大資料到大任務
10 月 31 日,由北京智源人工智慧研究院主辦的 2019 北京智源大會在國家會議中心開幕,本次大會圍繞人工智慧基礎研究現狀及面臨的機遇和挑戰、人工智慧技術未來發展的核心方向等話題,迴歸 AI 技術本身,開展深入研討,探索人工智慧前沿科技發展趨勢。
在第一天的主論壇上,美國加州大學洛杉磯分校的朱鬆純教授帶來了《走向通用人工智慧:從大資料到大任務》的主題演講,並提出了任務是智慧中心的觀點。
以下是朱鬆純演講內容實錄,AI科技大本營(ID:rgznai100)整理:
關於通用人工智慧,每個人都有自己的想法,有人認為不可能,有人認為馬上就要到來,而且會很可怕。不管哪一種觀點,我們都要紮紮實實地去研究問題,今天我給大家分享一個從大資料到大任務的思路。
第一,人工智慧的兩種正規化之爭:大資料VS 大任務;第二,智慧的中心核心是任務,每時每刻都被各種各樣的任務驅動;第三,如何通過構建一個大任務的平臺,來研究通用人工智慧。
兩種AI正規化之爭:“大資料”對“大任務”
首先是兩個正規化之爭。如果你問大部分人工智慧的研究者,他們會告訴你AI = B+C+D,也就是人工智慧等於大資料加上算力加上深度學習,這是被普遍接受的觀點,但是我一直在反對這個觀點。幾年前我反對把深度學習作為人工智慧之解時,很多人還很不滿,但是今天很多人已經同意這個觀點了。
目前以大資料驅動的人工智慧,在產業落地的過程中遇到了很多問題,這個問題其實一早就可以預想到。比如只能做特定的、人類事先定義的任務,而不能做通用任務,或者自己定義任務。第二,每項任務需要大量的資料,成本非常高,而且模型不具有解釋性,知識表達與人不同。
其實我們是最早做大資料的一個團隊。2005年,我們帶領了一批國際學者,包括後來在史丹佛標註 ImageNet 的人,以及後來的 MIT 實驗室主任等,在中國湖北蓮花 山標資料。當時大資料剛剛興起,我們雄心勃勃地想標資料,制定了200 多頁的資料標註手冊,包括蓮花如何分解,花蕊、花瓣以及生活環境等。
標了幾年之後,我發現這裡面有問題。一些學生剛開始問我如何標註時,我還能回答,但是後來我就答不出來了。於是我發現這條路走不通,所以2009 年左右,我就轉型去做認知科學。
我之前寫過一篇文章,介紹了兩種人工智慧的模式。
一種稱之為“鸚鵡正規化”,鸚鵡可以與人類對話,但是不理解你在說什麼。比如你說林黛玉,它也說林黛玉,但是它並不知道林黛玉是什麼。
還有一種是“烏鴉正規化”。烏鴉找到核桃之後,會把核桃扔在路上,讓車去壓,壓碎了再吃。但是因為路上車太多烏鴉吃不到核桃,於是烏鴉把核桃扔到斑馬線上,因為這裡有紅綠燈,綠燈亮時車都停住了,它就可以去吃。這個例子是非常驚人的,因為烏鴉既沒有大資料,也沒有監督學習,卻完全可以自主地研究其中的因果關係,然後利用資源完成任務,而且功耗非常小,小於 1瓦,這給了我們很大的啟發。
但是烏鴉能做到的不僅是這些,它們還知道如何利用工具,我相信直到今天,很多機器人的規劃能力都遠達不到烏鴉對物理的理解。
假設我們要定義一個人工智慧系統,我可以認為任何一個動物、機器都是 AI 系統,它往往決定了三個要素:第一是構架,你的腦袋裡缺一塊,就永遠進化不到一個層次,人的智慧90% 多都是天生的;第二是環境資料;第三是任務。
第一種層次的解法是用大資料給一個任務,比如人臉識別。給一個構架,比如深度學習有多少層,這就是目前通用的大資料系統。我認為人類走了另外一條路,就是有很小量的資料,但是有很大量的任務,不過人類有很高階的構架,這就成了另外一個系統。
舉個例子,怎麼教計算機學會識別椅子?用大資料的辦法很簡單,也非常暴力。就是搜尋大量的例子,用人工標註。你需要蒐集各種材質、各種攝像頭角度的椅子,窮舉後拿去訓練,訓練之後系統記住這些特徵。但是藝術家總是設計新的椅子出來,總是有特例,機器總是搞不清楚,所以不可泛化,不可解釋什麼是椅子,這就是它的核心問題所在。在自動駕駛、視訊監控等領域都存在這樣的問題,即不能窮舉所有的例子。
第二種層次的解法是什麼呢?假設我們要理解椅子,定義什麼是椅子。首先獲得人的經典坐姿,之後用坐姿擬合影像,各種位置、各種朝向、各種姿態的坐姿,能夠坐舒服的就是椅子,這就是一個任務。
椅子變成了一個任務的等價類,不管什麼物體能夠坐,坐得舒服的就是椅子。這代表了一種想象,我要想象這把椅子怎麼坐,這和深度學習不同:regression是統計,拿特徵去擬合,simulation 是用我的身體去想象,這是兩者根本的區別。
第三個層次,什麼是坐得舒服?首先這個椅子要坐得穩,物理穩定是神經系統裡非常敏感的感知。
我做了一個簡單的實驗,把各種各樣的椅子放在辦公室和實驗室裡,看學生進來時先坐哪兒、後坐哪兒,這時人會有一個偏好。
另外一件我們感同身受的事是,我們可以感覺這個人是如何用力,如何受力的,這都可以對映,這是人類非常強的能力。對映過來之後,我就知道你如何坐得舒服,從中學到你的價值觀。
理解這點之後,就不需要任何資料了。我知道椅子是為了讓人坐得舒服,從根本出發,我根本不需要資料。這就是我說的小資料、大任務。
以任務為中心的智慧
以任務為中心的智慧是大家經過漫長的時間之後才體會到的。
第一層的表達是以影像為中心。我們看到了一張影像,然後以影像為中心抽取各種特徵,理解各個部件。第二層變成了以場景和物體為中心,即幾何表達。
第一層是深度學習,即把影像看成影像,沒有幾何、物理和功能的理解。第二層開始以三維的幾何來表達場景,比如三維場景的桌子、椅子等。
最後,我認為真正的表達是以任務為中心的 task-centered representation,因為我們先有任務,才有世界上各種各樣的物體,這些物體都是被設計出來是為了滿足人的需求和完成某種任務。以任務為中心的表達,比如功能、因果、價值觀、物理、社會常識,我們統稱為physical and social common sense,這些常識是小孩在 18 個月之前獲取的。
什麼是以任務為中心的表達?我們考慮世界不是從某個物體類別的角度出發。比如開酒瓶,並不是只有開瓶器能開酒瓶,任何東西都能開酒瓶,砸核桃也隱藏著一個物理原理。我們知道物理原理之後,並不需要固定的東西開酒瓶,只要能完成開酒瓶任務都可以。我認為這種就是通用的人工智慧。
這個問題怎麼解?最近的研究發現,人腦裡大部分的知識表達並不是按照物理的類別來組織的,比如椅子是一類,桌子是一類,車子是一類,而是按照如何使用它們來組織,大概可以分成兩個尺度:身體的尺度和手的尺度。
其實這一點不新鮮,因為我們漢字中超過 1/3 的漢字都是與人有關的偏旁部首。我們之所以發明漢字,是因為漢字裡有一些任務,任務就是要把人放進去,一起來考慮,比如手、腳、耳朵、身體等。
還是以砸核桃為例,烏鴉用車輪碾核桃,如果在一個新的環境中,工具被拿走,但是你還是能完成砸核桃的任務,這是小學教育很重要的事情,就是教會你具有基本的常識。
砸核桃雖然只有一個例子,但是人要從上萬個選擇中選擇一個方案,在這個過程中有大量的simulation。我看到了核桃和幾種工具,大腦會快速地想怎麼做,可能你的大腦出現了上萬種選擇迅速。這是大量計算的過程,但不是深度學習的計算,而是一種 simulation 的計算。
還有時空因果的推理,現在這種情況要達到各種各樣的目標,中間有各種各樣的動作,然後形成一個因果方程,在物理上統一。
另外一點是 Causal Learning 和 Reinforcement Learing。RL現在也非常火,但是據神經科學研究者稱,RL 是老鼠這類的低等動物用的,要用大量的例子反覆實驗。而人使用的是因果學習,只需要有兩三個例子。
砸核桃的任務轉換到機器人不能只是簡單的轉換,必須是一個物理因果的等價,要推理物理的功能。
這是一個從一兩個例子中學習的過程。一個比較聰明的人可以從幾個簡單的選擇裡就悟出坐椅子的價值觀,從一個簡單的砸核桃的動作悟出本質。一旦悟出來還要資料做什麼呢?所以,這是一個核心問題。
以剷土為例,如果讓你用工具剷土,你就會想象如何去鏟。如果沒有工具,用家裡的工具同樣你也能剷土。經過自動計算,機器的第一個選擇是鍋,第二個選擇是杯子。
當人類或猿人走過石器時代時,神經系統已經學習了工具和物理知識,他理解的是本質。
現在回到如何定義任務?影像有多少個畫素可以很清楚地定義,但是任務如何定義呢?定義任務是以符合因果的方式,改變場景中的流態。“流態”是牛頓發明的一個詞,包括時變的物理狀態、內心狀態、社會關係等,可以簡單分類為物理流態和社會流態。
如果定義了這些原子的任務空間(atomic space),就可以組合產生複合的數學空間,這就是任務。這個事情說清楚,人工智慧的問題就解決了一大半。
目前人工智慧之所以遇到了很大的困難,是因為大家說不清楚到底要做什麼任務。任務定義不清楚,是很多產品賣不出去,或者賣出去後被投訴的原因。比如掃地機器人產品定義不清楚應該吸和不該吸的東西有哪些,給機器的任務本身就沒有清晰的定義。監控也一樣,到底什麼人該抓,什麼人不該抓,或者什麼樣的環境都無法準確定義。
前面談到了一些基本的物理任務和常識,物理常識是目前人工智慧面臨的主要障礙。比如自然語言理解,自然語言最多也是符號對符號,比如什麼叫“玩水”,如果沒有三維資料的體驗,沒有物理常識,其實很難搞懂這個詞的含義,所以物理常識是關鍵。
中國有一則寓言故事“盲人辨日”。一個從未見過太陽的盲人,無法解釋什麼是太陽,這就是自然語言的尷尬。自然語言必須和認知科學、計算機視覺、機器人聯絡在一起,否則沒法研究清楚,這是我的觀點。
另外一種智慧是社會的常識和任務。人類幼兒 12 個月之後開始指東西,他認識一個東西,但認為你不知道,所以他指給你看,這是一種非常強的智慧。要實現這種智慧,首先要有視角的轉換,即推理他人所見所想,這是智慧基本的東西。人類在對話時要有context,要知道上下文是什麼,共同知道哪些東西。
一個人從第三視角看,是他真正看到的東西。然後我們從第三人稱想他看到了什麼,這是計算機推理,相當於我大概知道你在看什麼,你突然問我問題時我就知道如何回答。這其中還有我們達成的共識,我知道你知道,你也知道我知道,這樣才形成了一個共同的任務。
人的認知構架是什麼?要形成對話,對話和語言是很重要的問題。每個客觀的世界用一個圓圈表示,其中每一個點都代表一個狀態。紅色是我腦中所想,藍色是機器人看到的。
首先,機器人看到的是不完整、不確定的世界,人類看到的是共享的世界,因為看問題的角度一樣。我們彼此從對方的角度看問題,雙方互相瞭解對方看到的東西。有了共同的東西,才能建立模型。
決策函式,即我知道你在這種狀態下應該如何做,我應該如何做。價值函式,即我大概知道你應該怎麼做,以及我認為你會怎麼做,以及你認為我怎麼做,有共同的情境和知識,就會有共同的價值觀。最後通過交流的過程,我們達成了共識。
Christopher Manning 講到人和人之間的通訊只有 10 個 bit,很慢,跟 5G 相比差太遠了,但是通訊很快,為什麼?就是因為我們有這些東西。
我總結一下 AI 的烏鴉模式。
用少量的例子,但是有功能、因果、價值觀等以後,就可以舉一反百,從初心出發來理解這個世界。我稱之為 智慧暗物質。你看見了這把椅子,想象身體如何去坐,這叫做暗物質。其中95%都是認知推理,只有把這 95% 搞定了,才能去理解剩下的 5%,否則就只能窮舉所有的情況。
這是一個簡單的演示,機器人如何與人類進行互動。機器人看到人進來了以後,它要理解人的意圖,知道意圖之後可以幫人開啟冰箱,知道要把食物放到冰箱裡。在整個過程中不僅有語言的交流,還有動作、表情的交流,使得雙方能夠達成一個共識,即猜測你的意圖是什麼,這是一個基本的方式。
這是我們剛做出來的桌面機器人,它能夠進行三維場景的重建。三維場景重建可以使用一些基本的計算機視覺方法。然後想象在這個場景中人能夠做什麼,才能定義傢俱的用處。
這其中包括 top-down 的 inference,但永遠無法識別小物體,必須要通過場景 context。這是一個非常致命的問題,現在所有的深度學習都沒有 top-down,只有 bottom-up。
這時我們要做一個統一的系統,融通六大領域,即計算機視覺、認知科學、語言對話、機器學習、機器人學習等,融合了才能有一個像樣的計算機系統。
如何構建“大任務”訓練與測試平臺?
如何構建大任務呢?我的目標是,在一個系統中訓練出一隻具有通用人工智慧的“烏鴉”,這是一個核心問題。
當然,只在一個物理場景中訓練是不夠的。第一步要根據人的需求,生成大量的資料庫中的三維物體。這是生成的各種例子,生成以後可以在各種環境中測試。現在做的大資料擬合,大家都可以測試,這是其中一種玩法。
我的玩法不同,智慧系統來了以後,我用一個全新的系統給你看,看你能不能完成各種各樣的任務,而不是事先規定的任務。
在這個系統裡面必須要做物理逼真的東西,比如可以倒酒、倒水、擠牙膏、玩沙子、玩水,這是非常費勁的,我們已經做了好多年。
先定義基本的任務,人可以接進去,機器可以接進去,然後可以身臨其境地共同完成任務。
我們做了一個手套,它可以精細化地記錄一些感知和運動行為。我進入了以後就知道有一些基本的操作,就是Learing from demonstration。
這是一個虛擬的機器人智慧體,讓它完成鮮榨果汁。比如說它要先找橘子,然後把橘子切了,再到榨果汁的地方去壓,它要有訓練的過程。比如做飯、做麵條,這都是非常大的任務。一般的日常生活中,你們看不起的東西越難。
人可以在裡面與機器進行互動,也就是人機協作完成一件事情。
最後人也可以教機器人,比如說這個男的演示怎麼砸核桃,這個動作背後其實有很大的工程量。
機器人會去想,怎樣在一個新環境下完成砸核桃,整個推理的過程都可以在這個地方完成。
最重要的事情,我可以隨時把機器叫停,然後問它,你現在知道什麼,你知道我在幹什麼,或者叫它解釋,打算做什麼,為什麼要做,這就是Explainable AI。
智慧體的核心就是把自然語言對話、計算機視覺、機器人等結合在一起,就像教小孩一樣,怎麼樣用小資料教會他。
總結
第一,“大資料”對“大任務”兩種正規化之爭,99%的人都是押注大資料,但是10年前我就押注大任務。
第二,我認為任務是智慧中心。我們有task-orientated作業系統、程式語言和體系結構。
第三,如何構建大任務的平臺。我要能在裡面訓練出“烏鴉”,通過自主的任務去驅動它。這裡面有很多數學問題、理論問題和工程問題要解決,中美必須合作來解決這個問題。
https://www.toutiao.com/i6754302467501982212/
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2662880/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 張鈸、朱鬆純、黃鐵軍等同臺激辯:人工智慧的“能”與“不能”人工智慧
- 從物件儲存服務同步資料到Elasticsearch物件Elasticsearch
- 四說大資料時代“神話”:從大資料到深資料大資料
- 人工智慧如何從科幻走向現實中?人工智慧
- 大模型生態合作啟動 雲從科技堪當大任大模型
- Ocient報告:從大資料到超大規模資料集的轉變大資料
- 使用SeaTunnel從InfluxDB同步資料到DorisUX
- mysqldump從mysql遷移資料到OceanBaseMySql
- 使用DataLakeAnalytics從OSS清洗資料到AnalyticDB
- 清華張鈸、北大朱松純、南大周志華,他們都是……
- 朱松純:強認知AI的領路人AI
- 大資料到底應該如何學?大資料
- Oracle使用RMAN從Windows遷移資料到LinuxOracleWindowsLinux
- 使用Data Lake Analytics從OSS清洗資料到AnalyticDB
- 從通用人工智慧到超級智慧:智慧爆炸人工智慧
- 從 "垃圾 "資料到資料完整性的轉變
- 通用人工智慧的四大基本問題人工智慧
- 2020年,人工智慧將走向何方?人工智慧
- PowerJob 應對龐大任務的錦囊妙計:MapReduce
- 從資料到視覺化:看板工具讓Excel更出色視覺化Excel
- 大資料到底是幹什麼用的?大資料
- 人工智慧和大資料到底有什麼關係?是如何聯絡在一起的?人工智慧大資料
- KunlunDB 快速入門 4.0(從Oracle實時同步資料到kunlunDB)Oracle
- 大資料這麼火,大資料到底可以用來做什麼?大資料
- 搭建人工智慧多模態大語言模型的通用方法人工智慧模型
- 關於大資料到底是怎麼來的大資料
- 大專生自學大資料到找到工作的前前後後大資料
- 從資料到知識,為何離不開這架飛輪?
- TPM管理:推動人工智慧走向未來!人工智慧
- excel導資料到PostgresqlExcelSQL
- 從單機到分散式微服務,大檔案校驗上傳的通用解決方案分散式微服務
- GoldenGate實時投遞資料到大資料平臺(7)– Apache HbaseGo大資料Apache
- 大資料到底是一個怎樣的專業大資料
- 大資料到底怎麼學:資料科學概論與大資料學習誤區大資料資料科學
- 大資料引領我們走向資料智慧化時代大資料
- OriginPro 2022啟用版:從資料到洞察,一切盡在掌控
- 從CSV檔案匯入資料到Analytics Cloud裡建立模型和StoryCloud模型
- 鉅變來了!金融大資料平臺走向何方?大資料