AI教父辛頓出生天才家庭,卻是輟學慣犯,年過七旬接連斬獲圖靈獎與諾獎

超神经HyperAI發表於2024-12-02

2012 年 12 月,AI 教父傑弗裡·辛頓 (Geoffrey Hinton) 踏上了前往哈拉斯賭場之路,他此行的目的是賣掉剛剛成立的深度學習公司 DNNresearch,這家只有 3 名員工、沒有產品、沒有業務、成立僅幾個月的「空殼公司」究竟能賣多少錢,辛頓也不知道,但他必須要籌集一大筆錢給他的兒子治病,這次拍賣會是他最好的機會了。

與此同時,百度、谷歌、微軟、DeepMind 這 4 家科技公司也紛紛派其代表前往,醉翁之意不在酒,他們此行的目的可不單單是為了搶奪這家「新到不能再新」的公司,而是為了「打包收購」這家公司背後的 3 個員工——辛頓和他的兩個學生 Ilya Sutskever、Alex Krizhevsky。

在這裡插入圖片描述

從左至右:Ilya Sutskever、Geoffrey Hinton、Alex Krizhevsky

就在拍賣會的前 2 個月,辛頓團隊提出的深度卷積神經網路 AlexNet 在 ImageNet 影像識別挑戰賽中一舉奪冠, 與之前大家常用的淺層學習不同,AlexNet 構建了一種類似大腦的神經網路,可以透過分析海量資料學習諸如影像分類等新技能,辛頓將其稱為「深度學習」。令人震驚的是,AlexNet 的出現直接讓影像分類錯誤率降低 9.4%(2011 年的冠軍相比 2010 年僅降低 1.4%),這項技術不僅會改變計算機視覺,聊天機器人、自動駕駛、智慧推薦、實時翻譯,甚至是藥物設計、醫療診斷、材料開發、氣象預測等領域,都將受其影響。

在這裡插入圖片描述

ImageNet 影像

敏銳意識到這個成果背後的巨大潛力,這 4 家公司匯聚於此。DeepMind 彼時剛剛成立 2 年,無法與科技巨頭們競爭,很快就退出了競拍。隨著競標價格的不斷攀升,微軟也退出了。當價格達到 4,400 萬美元時,辛頓叫停了出價,他是一個學者,並不是企業家,目前的價格已經遠遠超出了他的預期,為自己的研究找到一個合適的歸宿,才是他更應該考慮的問題。最終,他決定將公司賣給谷歌,與此同時,師徒三人也加入了谷歌。

「在此之前,深度學習還是在象牙塔裡進行純學術研究,並不被眾多科技公司重視,這場秘密競拍事件正式扣響了深度學習產業變革的發令槍」。地平線創始人兼 CEO、前百度深度學習實驗室主任餘凱,也就是當時代表百度參與競拍的親歷者,這樣評價道。

初探神經網路,挑戰 AI 權威明斯基

現如今,大眾普遍認為我們正在經歷的人工智慧熱潮起始於深度學習技術的重大突破,而在這個過程中,辛頓無疑是最受大眾認可的「AI 教父」。畢竟,很少有人能像他那樣,以其個人研究為核心,直接引領一個時代的科技發展,辛頓做到了,儘管這個過程耗費了近 60 年時間,人生一甲子,他收穫了創時代的成就。

辛頓於 1947 年 12 月出生於英國倫敦的一個「天才家庭」。 他的外曾祖父 George Boole 是數理邏輯學的先驅,布林代數、布林邏輯便是以他命名;他的曾祖父 Charles Hinton 除了是數學家外,還是一位著名的科幻小說作家;他的父親 Howard Hinton 曾當選英國皇家學會院士、是一位著名的昆蟲學家;他的表姐 Joan Hinton 是第一位獲得中國綠卡的國際友人,也是製造美國第一枚原子彈的女核物理學家之一。

在這裡插入圖片描述

8 歲的辛頓

在這種家庭出生的辛頓,理所當然的聰明機智,但也許就是因為他的心裡有太多自己的想法和主張,傳統的教育體系讓辛頓很難適應,他的求學生涯顯得一波三折。

本科時期,辛頓進入劍橋大學國王學院攻讀物理、化學,但一個月後就退學了。一年後,他在建築系上了一天課,決定轉讀物理學和生理學,再次退學。隨後,他改讀哲學,又一次半途而廢。最後,他選擇研讀心理學,1970 年,辛頓終於獲得實驗心理學學士學位。

這段教育經歷對於如今的學術泰斗來說實在不算光彩,以至於辛頓也曾自嘲:「我可能有一種教育上的多動症,無法安安靜靜學習」。然而,對於 18 歲的年輕人來說,敢於試錯也是一種勇氣,在篩選過不適合自己的學科後,辛頓終於定下了自己的未來方向——讓機器模擬人類大腦,此後幾十年,就算是面對無數人的質疑,也再也沒有變過。

辛頓對大腦的興趣源於他的高中時期:「我的一位朋友曾告訴我,大腦就像全息圖一樣工作,並透過神經元網路儲存記憶片段,這讓我很興奮」。然而,在當時那個年代,沒有人對大腦瞭解多少,即使是劍橋大學的老師也不能給他答案。或許是對研究感到迷茫,大學畢業後,辛頓選擇成為一名木匠。「我一直很喜歡木工活,我經常想,如果我成了一名建築師,是不是會更快樂。在科學研究上,我總是不得不強迫自己,家庭的原因讓我必須取得成功,這其中有快樂,但更多的是焦慮」。

在這裡插入圖片描述

辛頓(右側)和朋友 Terry Sejnowski(左側)討論網路視覺模型

「但當我遇到一名真正出色的木匠,我很快就意識到自己不適合這個行業了。當時一家煤炭公司讓這位木匠給陰暗潮溼的地下室做一扇門,考慮到環境特殊,他就將木料以反方向排列,以此抵消因潮溼膨脹而導致的木料變形,我此前從未想過這種方式,他還可以用手鋸將一塊木料切成正方形,跟他相比,我差得太遠了!我或許還是更適合回學校研究人工智慧」。多年後,當被問及為何重返學術圈,辛頓這樣回答。

值得一提的是,在成為木匠的那段日子裡,辛頓始終沒有放棄探索大腦的想法,他每週都會去圖書館自學大腦的工作原理,最後確定神經網路才是自己應該追求的「道」。隨後,辛頓在父親任教的大學接受了一份短期的心理學工作,並以此為跳板,於 1972 年進入英國愛丁堡大學的人工智慧專案,他的導師 Christopher Higgins 對大腦和人工智慧這個新領域很興趣,這與辛頓的想法不謀而合。

但就在他入學之前,Christopher Higgins 突然「叛變」了。使用人工神經網路讓計算機去模擬人類的大腦儲存和思考,這在當時被認為是不可思議的,辛頓的導師認為神經網路完全不堪大用,究其原因,是因為人工智慧的奠基人之一明斯基 (Marvin Lee Minsky) 當時寫了一本關於神經網路的書——《感知機》,並在其中給神經網路判了死刑。 他指出:單層神經網路表達能力有限,只能解決簡單問題;多層神經網路或能解決複雜問題,但又無法訓練,兩者都是死路一條。

在這裡插入圖片描述

明斯基

Christopher Higgins 被說服了,但辛頓仍然堅持自己的觀點:「其他人都錯了,大腦就是一個巨大的神經網路,神經網路一定是可行的,因為它在我們的大腦中起作用。」單層神經網路的能力不足已經被明斯基用數學證明出來了,這改變不了,但多層神經網路無法訓練的問題真的無法解決嗎?辛頓決定從這裡找出一條新路。遺憾的是,直到 1978 年從愛丁堡大學博士畢業,他依舊沒有找到這個問題的解決辦法。

「我和導師每週見一次面,有時會以一場大喊大叫的爭論結束。他曾多次告訴我不要再浪費時間研究神經網路了,我會跟他說再給我 6 個月,我一定會證明神經網路是有效的,6 個月過後,我會再跟他說一模一樣的話,直到我畢業。」多年後被採訪時,辛頓笑談。

深度學習的崛起

「畢業即失業」,這一點在辛頓身上得到了深刻體現。當時,人工智慧正處於寒冬時期,英國相關人員對人工智慧研究進展進行調查後發現,大多數人工智慧都沒有實現最初的承諾——即該領域的任何成果都沒有產生所謂的重大影響。於是,政府開始減少投資,與此同時,神經網路只是人工智慧中的一部分,理所當然的被邊緣化。

於是,辛頓開始放眼國外,他驚訝地發現,美國的加利福尼亞南部,有一小群和他同樣想法的人。「美國學術界可以允許不同觀點的存在,在這裡,如果你告訴其他人正在研究神經網路,他們會聽。」

在這裡插入圖片描述

辛頓

1981 年,在一次學術會議中,卡內基-梅隆大學的一位教授 Scott Fahlman 與辛頓結識,並萌生了招募辛頓的想法,Fahlman 認為,神經網路是一個「瘋狂的想法」,但人工智慧領域正在進行的其他研究同樣瘋狂。無論如何,辛頓終於為自己的「非正統研究」找到了落腳點。

入職之後,辛頓有了更好、更快的計算機硬體,這讓他的很多想法都能被實踐。1986 年,他在 Nature 上發表了著名論文「透過反向傳播誤差學習表徵」,終於解決了多層神經網路如何訓練的問題。 反向傳播被認為是深度學習的基礎,這篇論文現在已經被引用超 5.5 萬次,但當時並沒有掀起什麼水花。「我們完全猜錯了需要的計算資源和樣本數量。」辛頓在一次採訪中表示。多層神經網路能夠從大量訓練樣本中學習到規律,並對未知事情做出預測,但當時的計算機還不能處理如此龐大的資料,難以在具體應用中得到實踐,同領域的其他學者沒多久便將注意力轉向神經網路之外的其他替代方案。
論文原文「Learning representations by back-propagating errors」:
https://www.nature.com/articles/323533a0

由於對美國當時政治環境的擔憂,他的妻子 Ros 提議他們搬到加拿大,1987 年,辛頓離開卡內基-梅隆大學,加入了多倫多大學,不久之後,兩人收養一兒一女。1994 年,Ros 因卵巢癌不幸去世,但他無暇過度悲傷,一邊是科研重壓,一邊是 2 個不滿 6 歲的孩子無人照看,雪上加霜的是,兒子患有注意力缺陷多動症 (ADHD),辛頓本人還患有腰椎疾病。

「有很多次我都覺得我不會繼續這項工作了。」

但辛頓最終還是堅持下來了,在加拿大政府的資助下,辛頓每年為那些仍然堅持神經網路的研究人員舉辦「神經計算和適應性感知」研討會,希望可以大家可以在這裡碰撞想法,值得一提的是,楊立昆和本吉奧也是其中的成員,他們 3 人被稱為「深度學習三巨頭」,共獲 2018 年圖靈獎。

在這裡插入圖片描述

本吉奧、辛頓、楊立昆

此後很長一段時間,辛頓專注於神經網路研究,連續發表論文百餘篇,逐漸成長為人工智慧領域的大拿,卻始終沒有辦法廣泛改變大眾心裡對神經網路的偏見,他明白,如果不解決多層神經網路訓練難的問題,就無法扭轉人們認為神經網路沒有前途的看法。
辛頓的 Google Scholar:
https://scholar.google.com/citations?user=JicYPdAAAAAJ&hl=en

2006 年,辛頓發表論文「一種基於深度信念網路的快速學習方法」,由於當時很多雜誌期刊拒稿題目中含有神經網路字眼的論文,於是辛頓用深度學習代替多層神經網路,文章才得以刊登。論文中提到的深度信念網路每一層都是用「受限玻爾茲曼機」堆疊而成,辛頓對其經過無監督學習的逐層預訓練後發現,隨著網路深度增加,模型效能隨之提高。當應用效果與網路層數呈正相關時,多層神經網路的潛力終於被人認可。
論文原文「A Fast Learning Algorithm for Deep Belief Nets」:
https://direct.mit.edu/neco/article-abstract/18/7/1527/7065/A-Fast-Learning-Algorithm-for-Deep-Belief-Nets

經過 6 年的醞釀,2012 年,辛頓攜手兩名學生,開創性地設計了深度神經網路 AlexNet。 該網路在 ImageNet 影像識別競賽中首次亮相便直接碾壓所有對手,更讓人震驚的是,在為期一週的訓練中,團隊只用了 4 顆英偉達 GPU。自此,深度學習的 3 個短板——演算法、算力、資料終於被補全, 淺層學習演算法也在這個競賽中銷聲匿跡。值得一提的是,谷歌團隊亦參與了這屆競賽,所以才會在前面提到的拍賣會中不計成本地招攬辛頓。

辛頓的父親曾對他說,「只要你足夠努力,也許你的年齡到我的兩倍時,就能實現我的一半成就了。」所以現在,辛頓也常說,AlexNet 論文的引用次數遠遠超過父親的任何一篇論文。毫無疑問,AlexNet 是計算機史上最有影響力的論文之一,它的出現不僅是深度學習的轉折點,更是全球科技行業的轉折點。這次事件之後,以谷歌、微軟、蘋果、英偉達為首的科技巨頭加大對深度學習的戰略投入,並將其用於智慧推薦、影像識別、實時翻譯,甚至是藥物設計、醫療診斷、材料開發、氣象預測、海洋環境建模等,AI 技術開始在各個行業中產生深遠的影響。

從學術走向企業,關注深度學習在醫療領域的應用

值得一提的是,辛頓加入谷歌後,仍然保留多倫多大學的教授職位,他不想離開他的學生們。 「我非常幸運,有許多比我還聰明的學生,他們真正讓事情運轉起來了,後來也都取得了很大成就。」在今年的諾獎感言中,辛頓這樣說。前 OpenAI 首席科學家 Ilya Sutskever、前蘋果 AI 總監 Ruslan Salakhutdinov、Meta 首席科學家楊立昆、史丹佛教授吳恩達,都是辛頓的得意門生。他的學生 George Dahl 曾表示,每次看到一篇重要論文或者研究人員,都會發現與辛頓有直接或間接的聯絡,「我不知道是辛頓選擇了那些成功的人,還是他讓那些人成功,但當我經歷過後,我認為是後者。」

事實證明,辛頓加入谷歌無疑是一次正確的選擇,在擔任谷歌副總裁及研究員期間,除了不用再為研究經費發愁之外,開放的平臺終於給了他廣闊的發揮空間。與此同時,在大廠的「人才搶奪」戰中,谷歌再度出手,收購 DeepMind,並於 2014 年釋出 AlphaGo,迅速確定其在 AI 領域的領導者地位。
*AlphaGo 將先進的樹搜尋與深度神經網路結合,首次在圍棋遊戲中擊敗人類職業棋手

在這裡插入圖片描述

中國的世界頂尖圍棋手柯潔與 AlphaGo 對陣

此外,除了將前沿的技術應用於谷歌已有的產品(搜尋引擎、影像識別、語言處理、個性化推薦等),深度學習也被應用於解決人們日常生活中最被困擾的問題,比如,在醫療健康領域,谷歌推出用於檢測糖尿病、乳腺癌、肺病和心血管疾病的 AI 系統,這些技術的應用不僅有望提高疾病的早期診斷率,還能為患者提供更個性化的治療方案。

毫無疑問,深度學習可以透過處理大量資料,加速基礎科研的發展。但對於辛頓而言,AI 在醫療健康領域的應用尤其吸引他, 在他的個人成果中,大多數內容是推出新的演算法或模型,利用 AI 預測疾病是他少數直接涉及的應用之一。這或許源於他的個人經歷——首任妻子 Ros 因卵巢癌離世,而現任妻子 Jackie 也被診斷出患有胰腺癌。他認為:「提前診斷並不是一個微不足道的問題,我們可以做的更好,為什麼不讓機器來幫助我們?」

在這裡插入圖片描述

現如今,我們所稱的人工智慧大多是深度學習,普林斯頓計算心理學家 Jon Cohen 認為,所有深度學習的基礎都是反向傳播,這一點遭到了辛頓的質疑。2017 年 10 月,辛頓曾在多倫多的一場 AI 會議上公開表示,反向傳播演算法並不是大腦的運作方式,一舉推翻自己過去幾十年的研究,並隨之提出全新的神經網路架構——膠囊網路 CapsNet。
論文原文「Dynamic Routing Between Capsules」:

https://arxiv.org/abs/1710.09829

與深度網路相比,膠囊網路的優勢是,訓練更快、更精準、所需資料量更少。儘管 Capsule 的理論研究仍處於早期階段,還有許多問題需要解決,但辛頓仍然相信自己:「Capsule 理論一定是對的,不成功只是暫時的。」他的論文《膠囊之間的動態路由》已經被公開,這一次,膠囊網路是否還會經歷幾十年冷遇,這位 AI 教父能否再次改寫深度學習歷史,我們拭目以待。

AI 或將操控人類

自 ChatGPT 橫空出世以後,全球範圍內掀起了一股學習和研究 AI 的熱潮。各大網站上 AI 相關的內容肉眼可見地增加,成百上千的初創企業也湧入市場,致力於開發基礎模型、構建 AI 工具等。

以英偉達為例,作為 AI 晶片及基礎設施的主要供應商,因為其研發的 GPU 在訓練 AI 模型中至關重要,它的市值甚至一度超越蘋果和微軟,這正是 AI 技術快速發展的一個直觀體現。

然而,當外界在持續「吹捧」AI 可賦能萬物的時候,辛頓又成為了那個例外——「AI 將會威脅人類的安全。」

在這裡插入圖片描述

在二戰期間領導了曼哈頓計劃的「原子彈之父」J. Robert Oppenheimer 曾苦澀地表示:「我現在是死神,是這個世界的破壞者。」科學家們在追求真理的同時,也希望可以改善人類生活,但原子彈顯然偏離了這一目標。當親眼見證首次原子彈試爆那宛如世界末日般的場景時,他們心中更多的是對未來的恐懼和不安,而不僅僅是成功的喜悅。

類似的憂慮也出現在了辛頓的身上。2024 年,在諾貝爾獎頒佈的現場連線時,他曾說:「我感到愧疚和後悔,我擔心比我們更聰明的 AI 系統最終會掌控一切。」
在這裡插入圖片描述

辛頓獲得諾貝爾物理學獎

透過學習各種書籍和政治陰謀,AI 可能會變得極其擅長說服人,如果沒有充分的監管,它或許會透過「操控」人類做出難以預料的行為,這是辛頓最擔心的問題。比如,當人類向 AI 下達遏制氣候變化的指令時,AI 可能會為了實現這一目標,採取將人類清除的措施。辛頓認為:「許多人說只要切斷電源就能阻止 AI 失控,但是超越人類智慧的 AI 可以透過語言操縱我們,試圖說服我們不要關閉電源。」

為了更自由地討論 AI 安全問題,2023 年 5 月,辛頓離開了谷歌。 「Jeff Dean 嘗試挽留我,但我還是拒絕了他的提議。即使不會有明確的限制,但如果我還是谷歌的一員,發言時也不得不考慮公司的利益。」

作為最早意識到 AI 安全風險的人之一,辛頓曾苦惱於怎麼讓更多的人關注這件事。他的同事和學生建議他利用媒體平臺,藉助自己的影響力呼籲公眾重視 AI 安全。因此,從谷歌離職後,這位低調的學者開始頻繁接受媒體採訪,並在社交平臺上積極發聲。 有趣的是,一些媒體為了吸引更多人的關注,故意誇大辛頓的言論,甚至試圖誘導他說出谷歌的一些負面資訊。對此,辛頓選擇直接在社交媒體上公開回應,主打一個「叛逆」。

在這裡插入圖片描述

圖源:辛頓社交平臺

但好在,辛頓的一番努力沒有白費。現如今,許多專家對辛頓的擔心表示支援,一些科技公司也開始探索 AI 的透明度和可解釋性,國際社會也在積極合作,希望為 AI 設定合理的規則。

除了關注 AI 的潛在風險外,辛頓還特別重視大模型訓練的能耗問題。 眾所周知,訓練 AI 大模型通常會消耗大量電力,特別是在依賴化石燃料的地區,這種消耗會產生顯著的碳排放,甚至危及人類社會。今年 6 月,辛頓宣佈加入 CuspAI,這是一家成立於 2024 年 4 月的人工智慧初創公司,專注於利用生成式 AI 開發新型材料以應對氣候變化。辛頓表示:「CuspAI 致力於透過 AI 加快新材料設計,以遏制氣候變化的使命讓我印象深刻。」

在這裡插入圖片描述

圖源:辛頓社交平臺

從高中時期萌生探索大腦工作原理的想法,到實際研究時面臨無數人的質疑,辛頓在學術界邊緣位置徘徊 30 多年,卻始終堅持自己的想法,最終憑藉在神經網路方面的開創性成果榮獲圖靈獎、諾貝爾物理學獎等。然而,這位被稱為深度學習之父、AI 教父的科學家,在職業生涯即將達到「頂峰」之際,突然開始質疑自己,公開表達對 AI 安全的擔憂,倡導人類社會的可持續發展。

現如今,辛頓已經 77 歲了,仍然奔走在科學前沿,呼籲我們在推動 AI 發展的同時,關注技術創新、倫理道德與社會責任之間的平衡關係,他的經歷不僅是科學史上的一段傳奇,更激勵著無數後來者不斷前進。

相關文章