Christopher Manning 雖已成 NLP 領域先驅,卻仍為 AI 大模型的未來殫精竭慮。
今年 1 月份,2024 年度 IEEE 馮諾伊曼獎項結果正式公佈,史丹佛大學語言學和電腦科學教授、AI 學者克里斯托弗・曼寧(Christopher Manning)獲獎。
曼寧教授是將深度學習應用於 NLP 領域的早期領軍人物,在詞向量 GloVe 模型、注意力、機器翻譯、問題解答、自監督模型預訓練、樹遞迴神經網路、機器推理、依存解析、情感分析和總結等方面都有著名的研究。他還專注於解析、自然語言推理和多語言語言處理的計算語言學方法,目標是讓計算機能夠智慧地處理、理解和生成人類語言。
可以說,在過去的四十多年裡,他憑藉對語言的終身熱愛,一直在探索如何彌合人類和計算機的語言鴻溝。
此外,他還是史丹佛大學 Human-Centered 人工智慧研究所(HAI)的共同創始人、以及 2024 年 IEEE John von Neumann 獎章獲得者。
2024 年,曼寧教授獲得由 IBM 贊助的 IEEE John von Neumann 獎章
最近,他所在的史丹佛大學釋出了一篇專題文章,介紹了他的學術探索之路。
NLP 領域的先驅
多年之後,曼寧教授仍記得自己想要研究語言的那一刻,並自述了當時對語言學的啟蒙過程:
「有一天,在高中英語課上,我偶然發現了我老師的一本書,這本書涉及人類語言結構和語言學,」他說。「我開始閱讀它,瞭解到了國際音標,它提供了一套用於表示任何語言發音的通用符號。當時,我已經花了很多個小時學習英語單詞的拼寫,為了拼寫考試,其中的許多單詞在學習時都是很隨意且奇怪的。此外,我還學習了一些法語和拉丁語。這是我當時看到的第一件能夠捕捉到語言學指導思想的事物,透過研究人類語言的共性並嘗試在所有人類語言中產生一種共同的科學,是可以實現有用成果的。這也是我第一次開始作為本科生學習語言學的原因。」
四十年後,曼寧教授憑藉對人類語言的持續熱愛,以及先驅式地致力於幫助計算機學習、理解和生成語言,他成為自然語言處理(NLP)和機器學習領域的著名開創性人物。
史丹佛大學語言學和電腦科學教授 Dan Jurafsky 對曼寧教授的先驅生涯評價道:
「我會稱 Chris 為一個極其有影響力的人物,在自然語言處理領域可能是最有影響力的人物。他絕對是該領域獲得引用最多的人,幾十年的研究影響了包括我們最近的模型在內的一切。每個自然語言處理的學者都知道他的作品。」
史丹佛大學語言學和電腦科學教授 Dan Jurafsky 與曼寧教授同時授業自然語言處理課程的合影。
曼寧教授在自然語言處理學術領域中的論文引用和 H-index
預見機器學習的轉變
曼寧出生在澳大利亞昆士蘭州的班達伯格市,他的父親在 Fairymead 糖廠工作,負責維護、設計和建造機械。到了上高中時,全家已經搬到了澳大利亞首都堪培拉,他在那裡得到了他的第一臺計算機:先是借用了一臺 TRS-80,最終得到了一臺 Commodore Amiga。
在 80 年代中期,作為一名在澳大利亞國立大學(ANU)學習語言學、電腦科學和數學的本科生,曼寧已經對這些領域的交叉點感到興奮,並逐漸確信:早期的 NLP 時代,即手寫詞彙表和語法規則的時代,即將結束。
當曼寧教授回憶起當時場景時,他說:「我開始相信,正如我一直以來所相信的,我們需要做的是找到一種方法讓計算機學習東西,而不是為它們手寫出語法、規則和詞彙表,我們應該讓它們從語言資料中學習。最終,在我看來,我應該嘗試瞭解更多關於計算語言學 / 自然語言處理的知識,而在那時,美國正是去學習這些知識的地方。」
透過實踐學習
在日本短暫教授英語後,曼寧教授接受了澳大利亞國立大學(ANU)語言學導師 Avery Andrews 的建議,申請了史丹佛大學。
他為了應對當時該校並未提供自然語言處理(NLP)的課程這一情況,選擇作為語言學博士生入學,研究人類語言的句法,同時開始在附近的 Xerox PARC 工作,在那裡他學習了計算語言學,並與一群開始使用數字文字進行統計 NLP 研究的人一起工作。
值得注意的是:這種數字文字當時才剛剛開始出現。
遠在全球資訊網出現之前,關於如何利用文字資料進行語言學研究,曼寧教授提供了當時他的視角:
「雖然這是在全球資訊網之前的事情,但你開始能夠獲得像報紙文章、議會記錄和法律材料這樣的文字,所以你可以找到幾百萬字的文字,計算機中心會將這些資料寫入 10.5 英寸的磁帶,然後將這些磁帶物理運送給他們的客戶。像施樂(Xerox、IBM 和 AT&T 這樣從事計算語言學的公司可以從新聞機構購買這些磁帶,或者從允許他們使用資料的商業客戶那裡獲得這些磁帶的訪問權。這真的很令人興奮,因為這意味著我們第一次可以透過實際擁有大量文字資料來進行語言學研究,我們可以搜尋這些資料中的模式,嘗試自動學習人類語言的結構。」
在這段時間裡,他對 1980 年代末開始的關於機率機器學習模型的新工作也感到著迷,並洞察到了其潛力。這些統計模型是當今機器學習的基本組成部分,它們考慮了現實世界資料固有的不確定性,並將之納入預測中,從而允許對複雜系統有更準確的理解。
曼寧教授認為他成功的關鍵是願意迅速投入到他認為將成功的重要新方法中。雖然他不是第一個看到從大量文字資料中學習並構建這些語言的機率模型的潛力的人,但由於在職業生涯的早期就參與了這項工作,他才得以達成今天的成就。
關鍵的早期工作
完成博士學位後,他成為卡內基梅隆大學(Carnegie Mellon University)第一位教授統計 NLP 的教員,在兩年後選擇與妻子 Jane 一起返回澳大利亞,在悉尼大學教授語言學。
然而,到了 1999 年,他作為助理教授回到了史丹佛大學,同時在語言學和電腦科學系任職。1980 年代中期就已經被積極探索的人工神經網路到了 2010 年,再次變得重要,曼寧教授再次擁抱了新技術的前景。
他強烈主張可以在自然語言處理中使用這些神經網路來理解句子,包括它們的結構和含義,最終曼寧教授和他的學生真的推動了這個想法,併成為這些神經網路在自然語言理解發展和使用中的關鍵。
在當時,他開始認真地使用這些網路來建模語言,著手構建能夠解決語言理解問題的系統,比如判斷某人所說的是積極的還是消極的,並最終做了很多關於使用神經網路方法學習人類語言的早期工作,這涉及到讓這些模型理解、生成和翻譯語言。
曼寧教授在 2010 年代關於將單詞表示為實數向量,以及使用簡單的注意力函式對單詞之間的關係進行建模的工作,成為了今天使用的像 ChatGPT 這樣的大型語言模型的前置基礎。
關於他對電腦科學的巨大貢獻,史丹佛大學電腦科學教授 Percy Liang 表示:「今天,我們顯然應該在 NLP 中使用深度學習,但在 2010 年代初,這個想法遭到了激烈的抵制。但他仍做了重要的早期工作,展示了深度學習如何比之前需要大量特徵工程的機器學習模型工作得更好。這最終促使了我們今天認為理所當然的現代 NLP 系統的發展。Chris 有遠見,思考了它最終將如何具有變革性。」
建立可訪問的 NLP 軟體
曼寧教授至今的其他重要貢獻包括:一系列幫助定義計算語言學領域的教科書、在 YouTube 上的線上 CS224N 影片課程、一個提供跨不同語言的一致性語法註釋的框架 ---Universal Dependencies、為理解語言結構在語言處理中的作用的持續且必要的研究、以及致力於使 NLP 軟體對所有人可訪問的早期承諾。
圖注;史丹佛 Online CS224N NLP 影片課程
影片課程連結:https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
史丹佛大學語言學和電腦科學教授 Jurafsky 對在曼寧教授在神經網路方面的研究表示:「現在人們可以簡單地去網上,下載一個軟體,然後構建一個神經網路。但是 20 或 30 年前,這並不是常態。Chris 和他的實驗室在幾十年前就建立了公開可訪問的 NLP 軟體庫,並將其線上釋出,並且一直推動這種方式成為世界的標準。今天,開源 NLP 軟體的概念已經成為常態。」
目前曼寧教授也表示自己將繼續努力建立具有對世界及其多種語言更深入理解的深度學習模型。
因為對他來說,人類語言是一件大眾仍然不真正理解的驚人事物。但令人驚訝的是,嬰兒不知怎麼就弄明白了,小孩子最終能夠從大約 5000 萬個人類語言詞彙中學會成為優秀的語言使用者。
而他們給最好的大語言模型展示了數萬億個詞彙。從結果上來看,人類仍然更聰明。這是一個迷人的問題,構建計算機模型似乎是開始思考這個問題的一個富有成效的視窗。
參考連結:https://engineering.stanford.edu/magazine/laying-foundation-todays-generative-ai?sf187930028=1