機器之心報導
作者:吳昕
1 月 28 日,以「小資料、大任務」為技術正規化的暗物智慧科技(簡稱「暗物智慧」)宣佈,已於 2020 年年中完成 5 億元人民幣的 A 輪融資,由賽領資本和吉富創投共同領投,聯想創投、廣州基金、將門創投、花城創投跟投。
作為一家強認知 AI 平臺公司和這個領域的開拓者,暗物智慧極大填補了目前主流市場強認知 AI 的技術和商業空白。而一手創辦這家公司的全球著名計算機視覺專家、統計與應用數學家、人工智慧專家朱松純教授,也是計算機視覺領域的華人之光。
朱松純與美國加州大學洛杉磯分校(UCLA) 計算機視覺、認知、學習與自主機器人中心(VCLA)的 Tony 機器人,後者代表了 VCLA 致力於解決整合人工智慧、視覺和機器人技術問題。方法是構建一個可以檢視真實世界的系統,理解它看到的東西,並根據這種理解採取行動。
如果說有誰能將計算機視覺與交叉科學關係演繹得最為深刻與精彩,朱松純一定當仁不讓。
除了三次問鼎計算機視覺領域國際最高獎項——馬爾獎,作為新一代人工智慧領軍者,朱松純兩次擔任美國視覺、認知科學、AI 領域跨學科合作專案 MURI 負責人,長期致力於構建計算機視覺、認知科學、乃至人工智慧科學的統一數理框架。
除了對視覺領域大方向有著一流的直覺和準確把握,朱松純也一直往返於大學、公司、非營利機構,希望打通大學、研究院、產業的關節,貫穿產學研。
他籌建了世界最早大資料標註團隊,釋出了精細化程度最高、語義資訊最豐富的大規模資料庫 LHI Dataset;他一手建立暗物智慧,填補了目前主流市場強認知 AI 的技術和商業空白,讓普羅大眾都擁有屬於自己的 AI。
2020 年 9 月,朱松純以國家戰略科學家身份受邀回國,籌建北京通用人工智慧研究院並擔任院長,同時擔任清華大學、北京大學講席教授、北京大學人工智慧研究院院長。將人工智慧大一統理論框架在中國「圓夢」。
出國求學:逐夢「大一統」
1986 年,朱松純考入中科大計算機系。當時,人工智慧正陷入長達 30 多年的低谷(所謂 AI 的冬天),但他很早開始選修人工智慧研究所課程。
不同於做著布朗運動的功利主義者,成長在改革開放年代的朱松純這一代人充滿理想,崇尚科學,有著一種理想主義和使命感。
在他看來,人工智慧有太多問題需要解釋,值得長期探索。如果說在大學做研究是練內功,那麼在工業界練的就是外功。無論是上山創立門派還是下山開鏢局,都要內外兼修,相輔相成。
當時,人工智慧基本還是以符號為主的推理,離現實世界很遠,研究人員也很悲觀,失望之餘,在資訊閉塞、沒有電郵和網際網路的 80 年代,朱松純透過自己查閱以及跟留學美國老師談話,接觸到神經科學、心理學、認知科學、神經網路等方面的知識,也與計算機視覺不期而遇。
1989 年冬天,寒假回家之前,認知科學實驗室的一位老師借給朱松純一本白皮書,作者是 David Marr,他是英國出生的 MIT 認知科學和神經科學家,也是公認的計算機視覺的創始人。
美國是在 1980 年左右開始創立計算機視覺這門新興學科,當時國內大多數學計算機的人根本就沒有聽說過。因為缺乏背景知識,朱松純當時基本讀不懂這本書,但這也成為朱松純學術生涯的起點。
「誤入」計算機專業之前,朱松純填報的志願其實是物理。物理學發展猶如追求物理世界統一的宏偉史詩,念念不忘物理之美的朱松純也希望用這樣的「大一統」理論解決人工智慧問題,「來構造這個世界最合適於他的風範的、簡約的、可以理解的畫卷」。(「to make for himself in the fashion that suits him best a simplified and intelligible picture of the world。」——愛因斯坦語)
1991 年,朱松純從中科大計算機專業畢業。當時,計算機系剛剛有了第一臺鐳射印表機,替代針式列印。朱松純買了兩包「佛子嶺」香菸給管機房的師兄,讓他一定幫忙把申請海外高校的個人陳述好好排版,列印出來。三頁紙陳述中,朱松純要探索一種計算機視覺統一框架。
大部分學校拒絕了申請,結果哈佛大學錄取了他。90 年代,計算機視覺處於混沌初開、大家都在找「北」的時期。哈佛大學、布朗大學這個學派( Pattern Theory 學派)認定了用機率統計建模和計算的方法來研究。朱松純的導師 David Mumford 正是後來人工智慧研究轉向機率統計這個新體制的重要舵手之一。
Mumford 以前研究代數幾何(Algebraic geometry)並於 1974 年獲菲爾茲獎。1980 年代從純數學轉來學習、研究人工智慧。Mumford 認為統計是解決視覺問題的關鍵,並致力於建立模式理論(Pattern Theory),為智慧構建一個數學體系(mathematics of intelligence)。當他看到朱松純申請時,發現兩人目標一致。
1996 年布朗大學宣傳圖片。朱松純與導師 David Mumford 追逐計算機視覺的統一計算框架。
求學期間,朱松純一直與導師追逐計算機視覺的統一計算框架。
朱松純率先將機率統計建模與隨機計算方法引入計算機視覺研究。在導師建議下,朱松純基於歸約思想將大問題分解成小問題,從具體問題入手,為 David Marr 提出的早期視覺 (early vision)概念, 包括紋理 (texture)、影像基元 (Texton)以及原始簡約圖 (primal sketch)等建立一個統一數理模型,使從純粹理論、計算角度研究計算機視覺成為可能。
句子要符合語法結構,影片中的一個事件也有語法結構,尋找這樣一個層次化、結構化的解釋正是計算視覺的核心問題。2000 年前後,朱松純提出影像解譯(image parsing)與影片解譯,把視覺問題全部納入一個統一框架來求最佳解,擴充套件了模式識別創始人傅京孫先生的句法模式識別理論,並於 2003 年問鼎計算機視覺領域國際最高獎項——馬爾獎。
2002 年,朱松純加盟美國洛杉磯加州大學(UCLA),任統計系與計算機系教授,計算機視覺、認知、學習與自主機器人中心主任。在他之前,僅有 Judea Pearl 在 UCLA 計算機系和統計系兼職教授。
涉足人工智慧領域近 30 年,朱松純已在國際頂級期刊和會議上發表論文 300 餘篇,三次問鼎馬爾獎。作為視覺領域行業領軍人物,也打破了華人在國際頂尖期刊話語權微弱的局面。
2019 年 6 月,受中美貿易戰影響,美國政府對華為進行制裁,華為員工也被 IEEE 禁止參與審稿。不久,大會官方發表宣告「力挺」華為。作為這屆大會唯一一位華人主席,朱松純也在這封公開信上署名,聯合申明抵制 IEEE 限令,強烈倡導會議主席、編輯們自由選擇論文的審裁權利。
科研攻堅:引領技術正規化新方向
提前感知未來大方向,正是頂級研究者的厲害之處。
過去幾十年間,每一次重大轉折都是因為計算機硬體革命,帶來新穎的重大工程問題。90 年代末期感知器革命,讓朱松純預見變革即將到來——因為有了資料。
2005 年,朱松純回到老家湖北鄂州,帶頭成立蓮花山計算機視覺研究院,並籌建了世界最早大資料標註團隊。他們僱了幾十位平面藝術等專業的年輕人標註影像,座椅、椅背、腿的輪廓要標得很準確,連杯子和蓋子都要分開標記。朱松純認為影像必須標記得非常細緻,還制定了 200 多頁標記手冊。
十幾個人一直標資料,做了三年,資料庫也只有幾十萬張圖片。而且到了後來,朱松純也回答不出如何標記。正是在這一過程中,他洞察到機器學習和大資料方法的侷限性,「AI 作坊」註定不是通向通用 AI 的道路。
雖然自己是最早一批提倡統計建模與學習的人,但後來朱松純看到了更大的問題和局勢——光解視覺問題是做不好的,還需要大量認知推理。
「沒有多少人有勇氣去嘗試這件事。」 Mumford 曾這樣評價朱松純,「他確實是當今世界上正在擴充套件計算機視覺概念,以涵蓋人工智慧交叉學科重要問題的主要人物。」
2008 年之後,朱松純轉向認知領域的研究,將計算機視覺與認知科學、自然語言理解、機器人等學科結合,探索他所稱的「人工智慧的暗物質」——佔 95%、無法透過感知輸入觀測到的物質。
比如,你看見了一把椅子,想象身體如何去坐,以及坐下來是否舒服,這裡麵包括物理、功能、價值觀,這些都叫做「暗物質」;一個番茄醬瓶倒放的場景,這裡的「暗物質」就是在人們倒放瓶子這個行為中隱含的目的——為了更容易從瓶子裡擠出番茄醬。
感知的影像僅僅提供一些蛛絲馬跡;而後面的 95%,包括功能、物理、因果、動機等等要靠人的想象和推理過程來完成。只有把這 95% 搞定了,才能去理解剩下的 5%,否則,就只能窮舉所有情況。
朱松純領導的 UCLA 計算機視覺、認知、學習與自主機器人中心(VCLA)也一直致力於計算機視覺、機器人技術和人工智慧的 AOG 表徵和建模。
AOG(與或圖)是一個複雜的機率語法圖模型,就像用腦皮層裡面學習到的大量的知識來解釋你所看到的「蛛絲馬跡」,形成一個合理的解。而這種 Top-down 的計算過程在目前深度多層神經網路中是沒有的。
在朱松純看來,他們正在做的是面向 10 年、20 年後的技術——實現自然的(natural)智慧。
VCLA 的計算機視覺方法是定義一個視覺語法,並用它來解析影像和影片。上圖是一個示例影像和一個可能的解析樹。
2011 年,DARPA「MSEE」專案提出一項挑戰,分析幾個小時從不同攝像機拍攝的影片,並建立一個可以回答人類問題的系統。
DARPA 接受了由卡內基梅隆大學、加州大學伯克利分校和麻省理工學院等多所大學的研究人員組成的九個小組的方案,除了獲得高額資助,各小組還有四年時間實現自己的提案。
最後,只有朱松純領導的 VCLA 還留在比賽中,併成功完成自己的提案。其他小組要麼因為沒有按時完成任務而被 DARPA 取消資格,要麼因為任務太困難而自願退出。
朱松純團隊做了一個視覺系統,影片的理解輸出為一個大的綜合 STC-PG(它的母版就是一個 STC-AOG)。在此基礎上就可以輸出文字描述和回答提問 Q&A。這與後來一些計算機視覺的人研究 VQA 不同,後者是拿大量影像和文字一起訓練的,基本是在「扯白」。
MSEE 專案的成功為 VCLA 堅持的技術正規化提供了重要機構背書。
從 2010 年到 2020 年,朱松純連續領導兩屆大型跨學科國際專項 MURI,帶領來自 Berkeley、Caltech、CMU、MIT、Stanford、Brown、Yale 以及英國牛津大學的跨學科教授專家攻關人機互動認知理論、跨領域 AI 融合等新一代人工智慧技術的難題。
MURI 專案的人員。朱松純帶領來自 Berkeley、Caltech、CMU、MIT、Stanford、Brown、Yale 以及英國牛津大學的跨學科教授專家攻關新一代 AI 技術難題。
不同的人對椅子感受不一樣,其實反映的是人的基本價值函式。為了解答這個問題,團隊研究人員用圖形學的物理人體模型模擬人的各種姿勢,計算出以這些坐姿坐在這些椅子上時,幾大身體部位的受力分佈圖,由此推算出每個維度的價值函式,判斷人的價值觀,解釋人的行為。
2017 年,朱松純提出「小資料、大任務」正規化,主張以此來實現通用人工智慧,為探索通用人工智慧的道路進一步指明方向。
投身產業:經世致用,服務社會
科研上「清風明月」,但朱松純始終繞不過另一個關鍵詞——產業界。山上山下兩頭跑、遊刃於學術和工業界,不僅能看到全譜,對很多問題的體會也更深。
科研上著書立說之立言乃人生價值「不朽」之一。開發新產品、改變社會之「立功」同樣「不朽」。打造落地產品還需要朱松純邁出另一隻腳,跨過學術和產品之間的那扇大門。
如今,人工智慧不僅處在科研領域黃金期,也正處在產業領域的黃金時期。
麥肯錫全球研究院曾估計,到 2030 年,狹義人工智慧應用將為全球經濟增加約 13 萬億美元,從金額來看,其影響力將超過 19 世紀的蒸汽機。
雖然產業界已實現了讓機器「能聽會說識物」,但直到今天,由於缺乏可解釋性,人工智慧和機器人技術很難被廣泛應用在關鍵任務上。
朱松純團隊也一直在尋找能夠使機器人贏得信任的有效方法。2019 年,他們在 Science Robotics 雜誌上發表的一項研究表明,機器人經過幾輪人類演示後,不僅知道如何用安全鎖開啟藥瓶,而且還可以多種方式實時地解釋其行為。
在吉富創投 TMT 投資負責人李健全看來,這一波人工智慧浪潮有一個很明確的趨勢,就是「沿著弱人工智慧往強人工智慧、超人工智慧一路疊浪前行。」
投資已經開始。總部位於西雅圖的研究公司 Mind Commerce 曾釋出報告顯示,預計到 2023 年,通用人工智慧的投資將達到 500 億美元。對於全世界最大的科技公司來說,通用人工智慧是一場輸不起的比賽,即便結果證明沒有人贏。
2018 年底,暗物智慧落戶中國廣州,將人工智慧在認知層面的新突破應用於智慧教育等關係國計民生的重要領域,以實現真正的高自然度人機互動和協同。
朱松純曾表示,教育是關乎國計民生、人口素質和社會發展均衡化的重要領域。而人工智慧透過對教育過程的認知建模,可以助力提升教學和評估的效率,為基礎和職業教育提供低成本解決方案。
目前,暗物智慧在教育領域已形成學齡前、K12、線上教育、職業教育的使用者服務全生命週期閉環,觸達數百萬終端使用者。
歸國「圓夢」:貫通產學研
目前,我們面對的是全新的問題,要研究的都是大型的複雜系統,如人工智慧、神經與腦科學、生物系統、社會學。西方過去十分成功的 reductionism 思維方式是否需要掉頭,融合東方哲學和綜合的思想?
科研上,朱松純已經敏銳捕捉到發現最近 60 年,科學的發展缺乏大的框架性的突破,這與 1900 年代初期的大突破時代不同。
而從產業角度來看,如今國內 AI 產業在 2016 年快速發跡後正步入一個新階段,人工智慧也被寫入國家戰略,AI 新基建正為眾多產業換代升級帶來新的機遇。
AI 產業本質上是人才和技術的競爭,中國 AI 產業整體還面臨著人力資源的大量短缺。這幾年,已經有一些重量級學者接連回國,以不同的身份與角色投身這次浪潮。
對於朱松純來說,是時候開啟一次新的征程,正如三十年前遠赴哈佛大學求學,探尋新的挑戰,去思考為學界、產業、為下一代人工智慧領域的學子們做些什麼。
2020 年,朱松純以國家戰略科學家身份受邀回國,籌建北京通用人工智慧研究院(BIGAI)並擔任院長。這也意味著「小資料、大任務」的方法,也被定為北京通用人工智慧研究院的「研究正規化」。
朱松純曾在訪談中提到,三十年前就讀於中國科學技術大學時,就有了追求人工智慧大一統理論的夢想,赴美求學正是為了追尋與探究這一理想。三十年後,選擇回國也是基於同一夢想,迴歸初心——將人工智慧大一統理論框架在中國「圓夢」。