像其他人一樣,經濟學家也在享受著大型語言模型(LLMs),感受到了它們的優勢和限制。像ChatGPT這樣的大型語言模型確實是令人著迷的藝術。但其中一個關鍵問題是,我們能不能從這些模型中學到一些我們目前還不知道的經濟學知識?
我相信經濟學家能夠從大型語言模型中學到很多東西,不是透過與它們聊天,而是透過解構它們的工作方式。畢竟,大型語言模型中構建在強大到足以幫助我們模擬人類語言的數學概念之上。也許瞭解這些模型的工作原理能夠能夠成為經濟學家的新靈感來源。
要了解大型語言模型的工作原理,我們需要從最原始的語言生成模型開始。假設我們要選用一個大型的文字語料庫來統計每個單詞後面跟著不同單詞的次數,如“棕”後面跟著“狗”的次數。像“棕狗”這樣兩個詞的序列被稱為“二元語法”(2-grams),這些詞語組成的詞語矩陣就是一個原始的語言生成模型。它在結構上非常簡單,無法在文字生成上取得良好效果,但仍然足夠“聰明”,能夠“學會”形容詞傾向於在名詞前面出現的規律。也就是說,“棕狗”要比“狗棕”更常見。
大型語言模型將這一思想擴充套件到n元語法矩陣。作為數學模型,大型語言模型能夠推測一個詞在一連串預先給定的片語中出現的機率。當然,n元矩陣的大小能夠爆炸式增長。有了1萬個詞,我們就有1億個二元語法、1萬億個三元語法。當我們考慮18元語法時,可能的組合(10的72次方種組合)比我們用地球上的全部原子所能儲存的資訊量還要多(大約10的56次方位元的資訊量)。
因此,設計大型語言模型的工程師足夠聰明,選擇將神經網路的幾個引數擬合成一個能夠描述所有這些詞序列的函式。大型語言模型有近一萬億個引數,這數量看起來很多,但與博爾赫斯筆下的巴別圖書館所涉及的n元語法相比仍是很小的。
藉助神經網路,這些模型開始模仿現有知識。大型語言模型“知道”茶和咖啡是相似的,因為這兩個詞經常出現在“熱”、“飲料”和“早餐”等詞周圍。藉助神經網路中的節點而不是孤立的單詞實體來表示單詞,這些模型創設建立了生成語言所需的數學表示。
這與經濟學有什麼關係?
如同文字涉及許多文字之間複雜的互動一樣,經濟也涉及各種各樣的人和事物相互間的複雜互動。當然,我們也能夠將這些互動分為預先定義的類別(如資本和勞動力)或不同的經濟活動(如農業、服務業和製造業)。但是,就像一個語言模型如果僅有名詞、動詞和語法等概念是不完整的一樣,根據經濟活動粗略分類的經濟學模型也不完整。規模較大的語言模型告訴我們的是,透過採用預定義類別和演繹邏輯捕捉全世界細微差別的能力是有限的。如果我們想了解系統的細節,我們就需要一個數學工具箱來幫助我們以更精細的解析度捕捉系統的動態和規律。
這個想法並不新鮮。事實上,一些經濟學家已經在應用其中的一些技巧。在著名的詞嵌入演算法Word2vec發表的前六年,我和其他三位同事發表了一種國際貿易網路表示方法。我們試圖藉助二元語法矩陣,根據產品之間的關係來建立數學表示。如同規模較大的語言模型學習到咖啡和茶是相似的一樣,我們創設建立的網路“知道”鑽孔機和切割刀片是有所關聯關係的,因為它們大多數情況與其他類似產品一起出口。網路也“知道”熱帶農業和溫帶農業的區別,以及製作T恤和液晶屏的區別。
在過去的15年裡,這些方法在年輕經濟學家和經驗豐富的從業者中得到了越來越多的受眾。一方面,它們提供了將政策預測概念應用於經濟發展研究的必要工具,例如預測一個經濟體在不同產品和市場中的進入和退出機率。他們還為經濟帶來了“嵌入”的研究工具。“嵌入”是一種向量表示,可用於描述深度學習模型中的單詞。“嵌入”應用的一個例子是經濟複雜性指數,該指標源自經濟體之間的相似性矩陣,能夠解釋長期經濟增長、收入不平等和碳排放方面的區域和全球差異。
機器學習收集、構建和表示資料的能力正在為許多領域的研究人員創造機會。從想要了解和預測蛋白質行為的計算生物學家,到想要了解和預測經濟演變的經濟學和全球發展專家,都是如此。經濟學家和電腦科學家都應該要歡迎這場新的方法論革命,這將成為創新和實驗的全新前沿。
本文作者
César A. Hidalgo
圖盧茲大學人工和自然智慧研究所集體學習中心主任