在 AI 領域,幾乎每個人都在談論大型語言模型,其英文全稱為 Large Language Models,簡寫為 LLM。
因為 LLM 中有「Language」一詞,因此,大家預設這種技術和語言密切相關。
然而,知名 AI 大牛 Andrej Karpathy 卻對此有著獨特的見解:
「大型語言模型(LLM)名字雖然帶有語言二字,但它們其實與語言關係不大,這只是歷史問題,更確切的名字應該是自迴歸 Transformer 或者其他。
LLM 更多是一種統計建模的通用技術,它們主要透過自迴歸 Transformer 來模擬 token 流,而這些 token 可以代表文字、圖片、音訊、動作選擇、甚至是分子等任何東西。因此,只要能將問題轉化為模擬一系列離散 token 的流程,理論上都可以應用 LLM 來解決。
實際上,隨著大型語言模型技術棧的日益成熟,我們可能會看到越來越多的問題被納入這種建模正規化。也就是說,問題固定在使用 LLM 進行『下一個 token 的預測』,只是每個領域中 token 的用途和含義有所不同。
如果核心問題真的變成了預測下一個 token,那麼深度學習框架(例如 PyTorch 及其同類框架, 因為 PyTorch 提供了過於廣泛的操作和層的可配置性而顯得過於普通)也可能過於普通,無法滿足大多數問題隨時間推移的需要。如果 80% 的問題只需要使用 LLM 來解決,那麼成千上萬個可以隨意重新配置的操作和層又有什麼用呢?我認為這不是真的,但我認為它只對了一半。」
Karpathy 的這番言論引來很多人圍觀,瀏覽量高達 20 多萬。
Karpathy 曾是 OpenAI 的早期成員之一,之後加入特斯拉領導其自動駕駛的計算機視覺團隊。之後他又回到過 OpenAI,領導著一個專注提升 ChatGPT 的 GPT-4 的小團隊。今年 7 月,他宣佈創立了一家名為 Eureka Labs 的 AI + 教育公司。
作為前排吃瓜群眾的馬斯克非常贊同的表示:這絕對需要一個新名字,「多模態 LLM(Multimodal Large Language Models)」是一個特別愚蠢的名字,因為第一個詞與第三個詞相矛盾!
機器學習和 AI 研究員、暢銷書《Python 機器學習》作者 Sebastian Raschka 也非常贊同,他表示:如果將 LLM 改為自迴歸 Transformers 或者其他名字的話,那 Mamba、Jamba、Samba 可以申請加入嗎。不管怎樣,還是非常贊同 Karpathy 觀點。
不過,來自 OpenAI 的研究者 Clive Chan 卻表示:另一方面,也許所有可以用自迴歸方式表達的東西都可以被視為一種語言。任何事物都可以被轉化為一串 token 流,因此從這個角度看,一切都是語言!
對於這種說法,Karpathy 回覆到:當然,你可以想象說話紋理、說話分子等等。但我所觀察到的是,語言這個詞誤導了人們認為大型語言模型(LLM)只限於文字應用。
在 Meta 從事 PyTorch 研究的 Horace He 表示:確實,深度學習框架可能在某些方面過於普遍。儘管如此,即便只是針對大型語言模型(LLM),實際執行的操作也有很大的變化。這包括新的注意力操作、混合專家模型(MoE)、不同變體的啟用檢查點、不同的位置嵌入等。
在 Horace He 看來,這些技術的多樣性說明,即使是在專注於 LLM 的應用中,深度學習框架的通用性也是有其必要性的,以適應不斷髮展和變化的模型需求。
「像 LLMs、GPT 和 RLHF 這樣的術語現在變成主流,這實在有些奇怪。通常,一個領域向更廣泛的世界介紹自己時並不會這樣做(在我看來,這也是有些機構品牌推廣失敗的原因)。」有人發表了這樣的觀點。
這種情況反映了複雜技術術語的普及可能並不總能有效地代表其真實的應用和影響,有時甚至可能導致公眾理解上的困難。
還有網友認為,「Large」這個詞用的也不好,因為今天的「大」在未來會顯得「小」。
「 同樣的情況也適用於電話和計算機領域,看起來最初的術語往往會保持使用。」
這不由得讓我們想起 AI 領域各種命名方式,早期的名稱往往因為先入為主的效應而被廣泛沿用,即使隨著技術的演進,這些名稱可能已不再準確描述其功能了。
大型語言模型到底應不應該改名,你怎麼看,歡迎評論區留言。
參考連結:https://x.com/karpathy/status/1835024197506187617