為什麼要純C語言手搓GPT-2，Karpathy回應網友質疑

机器之心發表於2024-04-11

原文網址 : https://www.jiqizhixin.com/articles/2024-04-11-5

Karpathy：for fun.

幾天前，前特斯拉 Autopilot 負責人、OpenAI 科學家 Andrej Karpathy 釋出了一個僅用 1000 行程式碼即可在 CPU/fp32 上實現 GPT-2 訓練的專案「llm.c」。

llm.c 旨在讓大模型（LM）訓練變得簡單 —— 使用純 C 語言 / CUDA，不需要 245MB 的 PyTorch 或 107MB 的 cPython。例如，訓練 GPT-2（CPU、fp32）僅需要單個檔案中的大約 1000 行乾淨程式碼（clean code），可以立即編譯執行，並且完全可以媲美 PyTorch 參考實現。

專案連結：https://github.com/karpathy/llm.c

專案的 Star 量不到七個小時就衝上了 2000，目前已經接近一萬 Star。很多網友驚呼太強了：「即使頂著指標 ptsd，我也能感受到這些程式碼的美。」

然而，llm.c 專案收到的不只是稱讚，還有很多質疑的聲音。例如，有網友直接提問：「能具體描述下這個專案做了什麼嗎，解決了什麼問題？」

對此，Karpathy 今天正面回應了網友們的疑問，詳細闡述了 llm.c 專案的意義是什麼，優缺點有哪些。

機器之心對 Karpathy 敘述原文進行了不改變原意的編譯、整理，我們來看下 Karpathy 是怎麼說的：

訓練大型語言模型 (LLM)，例如 ChatGPT，涉及大量程式碼，複雜度很高。例如，典型的 LLM 訓練可能會使用 PyTorch 深度學習庫。PyTorch 本身就相當複雜，因為它實現了：

一個非常通用的張量抽象（一種排列和運算元組的方法，這些陣列用於儲存神經網路引數和啟用）；
一個非常通用的反向傳播 Autograd 引擎（訓練神經網路引數的演算法）；
在神經網路中使用的大量深度學習層。

PyTorch 專案有 11449 個檔案中的 3327184 行程式碼。最重要的是，PyTorch 是用 Python 編寫的，Python 本身就是一種非常高階的語言 —— 必須執行 Python 直譯器將訓練程式碼轉換為低階計算機指令。例如，執行此轉換的 cPython 專案包含 4306 個檔案中的 2437955 行程式碼。

llm.c 專案旨在移除所有這些複雜性，並將 LLM 訓練簡化為其最基本的要素，用非常低階的語言 (C 語言) 直接與計算機對話，並且沒有其他庫依賴項，唯一的抽象是彙編程式碼本身。

令人驚訝的是，訓練像 GPT-2 這樣的 LLM 實際上只需要在單個檔案中使用大約 1000 行 C 語言程式碼。我透過直接在 C 語言中實現 GPT-2 的神經網路訓練演算法來實現這種壓縮。這實際上很困難，因為你必須詳細瞭解訓練演算法，能夠匯出所有層反向傳播（backpropagation）的 forward pass 和 backward pass，並非常仔細地實現所有陣列索引計算，因為沒有可用的 PyTorch 張量抽象。但一旦這樣做了，並且透過再次檢查 PyTorch 來驗證正確性，你就會得到一些非常簡單、小且精緻的東西。

那麼，為什麼人們不一直這樣做呢？

第一：這放棄了很大的靈活性。如果你想改動神經網路，在 PyTorch 中你可能只需要更改一行程式碼。而在 llm.c 中，改動很可能會涉及更多程式碼，可能會更加困難，並且需要更多專業知識。例如。如果涉及一個新的操作，你可能就需要做一些微積分，並寫出它的 forward pass 和 backward pass 以進行反向傳播，並確保其在數學上是正確的。

第二：放棄速度，至少一開始是這樣的。天下沒有免費的午餐 —— 不應該指望僅 1000 行程式碼就能達到最先進的速度。PyTorch 在後臺做了很多工作，以確保神經網路非常高效。不僅所有張量操作都非常仔細地呼叫最高效的 CUDA 核心，而且還有 torch.compile 等等，以進一步分析和最佳化神經網路並有效地在計算機上執行。

現在，原則上，llm.c 應該能夠呼叫所有相同的核心並直接執行。但這需要更多的工作，就像上述第一點一樣，如果更改神經網路或正在執行的計算機的任何內容，你可能必須使用不同的引數呼叫不同的核心，並且可能會手動進行更多更改。

總的來說，llm.c 是訓練 GPT-2 的直接實現。這個實現結果出人意料地簡短。但 llm.c 不支援其他神經網路，僅支援 GPT-2，如果你想更改神經網路的任何內容，則需要專業知識。幸運的是，所有最先進的 LLM 實際上與 GPT-2 根本沒有太大的區別。並且，llm.c 必須進行額外的調整和完善，但原則上我認為它應該幾乎能夠媲美，甚至超越 PyTorch，因為我們消除了所有開銷。

最後，我為什麼要做這個工作？因為這很有趣。它也很有教育意義，因為只需要那 1000 行非常簡單的 C 語言程式碼。它只是一些陣列和對其元素進行一些簡單的數學運算，例如 + 和 *。對於正在進行的更多工作，它可能會變得實際有用。

^{參考連結：https://twitter.com/karpathy/status/1778153659106533806}

純C語言手搓GPT-2，前OpenAI、特斯拉高管新專案火了
2024-04-09
C語言GPTOpenAI
何為程式語言？為什麼要學C語言？
2019-03-04
C語言
為什麼要學習Go語言呢？
2022-01-10
Go
為什麼那麼多人要學習go語言?go語言有什麼特點?
2019-11-12
Go
為什麼要學習Python語言?Python入門
2020-09-22
Python
學習Python語言為什麼要參加培訓?
2020-09-14
Python
為什麼純函式式語言至今無法流行起來？
2021-06-19
函式
手搓一個兔子問題（分享一個C語言問題，持續更新…）
2018-10-17
C語言
什麼是NLP，NLP主要有什麼用，為什麼要學自然語言處理？
2019-04-03
自然語言處理
嵌入式開發為什麼選擇C語言？
2019-03-07
C語言
進入IT行業，為什麼要選擇學習Python語言?
2019-12-10
行業Python
Google 大佬們為什麼要開發 Go 這門新語言？
2022-01-20
Go
什麼是臨床質量語言（CQL）？
2022-03-18
為什麼Julia語言這麼棒？
2019-02-24
為什麼遊戲裡要揀回屍體？
2019-10-09
遊戲
為什麼要虛擬化，為什麼要容器，為什麼要Docker，為什麼要K8S？
2023-01-16
DockerK8S
為什麼要學習Python語言?哪些人適合學習？
2022-03-28
Python
【譯】你的程式語言能做到這個嗎？(為什麼要學函數語言程式設計)
2019-01-25
函數程式設計
為什麼C語言Scanf函式對字串不要加取地址運算子？而整型變數要加？
2024-06-14
C語言函式字串變數
為什麼很多公司都轉型go語言開發？Go語言能做什麼
2019-04-04
Go
為什麼在Go語言中要慎用interface{}
2018-04-14
Go
Python和C語言區別是什麼?
2020-12-03
PythonC語言
Python和C語言有什麼區別？
2021-02-07
PythonC語言
為什麼Web前端語言只有JavaScript?
2019-06-11
Web前端JavaScript
C 語言回撥函式詳解
2020-04-23
函式
Python語言怎麼樣?為什麼學Python?
2021-03-18
Python
為什麼要建議大家未來一定要掌握python這門語言？
2019-01-16
Python
優秀的開發者為什麼要學習研究新的程式語言？
2018-03-05
為什麼自制指令碼語言是程式語言的最高境界？
2018-07-24
指令碼
為什麼 C# 可能是最好的第一程式語言
2023-03-16
C#
為什麼選擇Rust作為物聯網的程式語言？ - Ash Moosa
2019-06-21
Rust
Web前端要學什麼語言？需掌握哪些知識？
2022-02-28
Web前端
為什麼要給應用程式簽名？
2022-07-26
C# 語言在AGI 賽道上能做什麼
2024-06-19
C#
【轉載】C 語言有什麼奇技淫巧
2024-06-10
python和c語言的區別是什麼
2021-09-11
PythonC語言
Python和C語言有什麼區別？分析！
2021-03-10
PythonC語言
為什麼 Go 語言 struct 要使用 tags
2023-03-11
GoStruct

為什麼要純C語言手搓GPT-2，Karpathy回應網友質疑

相關文章