第一個想取代程式設計師的AI程式設計師,失敗了?

卡颂發表於2024-11-11

大家好,我卡頌。

Devin,全球第一款號稱AI程式設計師的應用,號稱可以完成從寫程式碼、改bug,一直到部署上線運維的軟體開發全流程。

這是個宏大的願景,如果實現了,毫無疑問對程式設計師崗位將造成極大衝擊。

那麼,他的現狀如何?現狀背後反映了什麼?程式設計師又該如何看待AI程式設計師帶來的競爭?

本文讓我們聊聊這些話題。

歡迎加入人類高質量前端交流群,帶飛

簡單介紹下Devin

Devin的介面採用左右佈局,包括兩部分:

  • 左:Devin與使用者交流的介面
  • 右:一個整合常用開發工具的沙箱,包括ShellIDE、瀏覽器和Devin自身拆解目標形成的執行計劃

沙箱裡的工具完全受控於Devin,理論來說,程式設計師用這些工具能辦到的事他都能辦到。

Devin的現狀

根據谷歌指數,Devin的熱度出現過兩次高峰,分別是:

  • 24年3月,應用釋出
  • 24年4月,事件營銷產生了極大討論度

但是熱度並沒有轉化為關注度,後續熱度持續走低。

從其油管官方賬號的影片播放能看出,3月的首發影片獲得了100w+播放,而7月的介紹影片只有3k播放。

是什麼原因呢?

雖然憑藉全球第一個AI程式設計師的噱頭,Devin一經發布就獲得極大關注。

但是,應用並沒有對公眾開放,而是採用報名等試用名額的機制。

等到4月,少部分試用影片流出。

大家發現,這些影片中體現的編碼能力並不比市面上常見的編碼應用(比如v0)更厲害。

其中流傳最廣的是官方釋出的影片案例 —— 用Devin在外包網站上接單,併成功交付

這個影片太火了,以至於被髮單的甲方看到,並專門做了個影片Devin didn't solve my computer vision project澄清Devin實際上並沒有解決他發單的問題。

這不就尷尬了嘛~

截止目前(24年11月),Devin已釋出近8個月,仍未對外開放。

再考慮到他日漸走低的聲量,這是否意味著這款應用失敗了?其實並不一定。

接下來,我將聊聊AI程式設計師應用背後的邏輯。

AI程式設計師背後的邏輯

對於大網際網路公司來說,程式設計師薪酬是一筆極大的開銷,甚至可能佔到總開支的15%~25%。

所以,對程式設計師工作環節中任何部分的提效都是符合公司利益的。

應用側程式設計師的工作主要圍繞上線一款應用展開,讓我們將其按“工作環節”拆解:

其中很多環節都需要程式設計師介入。

我們選擇其中的開發環節繼續拆解,得到如下結果:

再繼續對前端開發環節拆解,得到如下結果:

如果我們對圖中所有環節進行遞迴拆解,會獲得一個金字塔結構的樹狀圖,圖中每個節點就是一個工作環節

AI程式設計師應用就是對金字塔中與程式設計師工作相關的環節進行提效。

那究竟該對哪些環節進行提效呢?

LLM發展的三個約束

Devin的目標可以說是AI程式設計師應用的終極形態 —— 他希望完全取代程式設計師,完成金字塔模型中“與程式設計師相關的所有工作環節”。

但正如開篇提到的,當前他還無法勝任這個工作。

究其原因,就像汽車依賴引擎,任何AI應用的底層都依賴LLM(大模型)。

LLM的能力受到三個約束:

  1. 理解能力
  2. 上下文長度
  3. 私域知識儲備

這三種能力互相制約,舉個例子:

Claude-3.5-sonnet-200k上下文長度號稱200k。也就是說,極限工況下,他能一次性理解“包含大概1.6w行程式碼的專案”。

但實測發現:

  1. 越接近上下文上限,理解能力衰減越快
  2. 程式碼邏輯越複雜,理解能力衰減越快

經過我的測試,他能勝任“程式碼量9k行以內的常規專案”。

Devin面對的也是一樣的問題:他在工作過程中會不斷積累私域知識,並在需要時隨時檢閱這些知識。

比如:開發環節開發UI元件需要知道設計環節定下的設計規範。

所以,Devin的執行會經歷如下過程:

  1. 隨著程式的執行,私域知識儲備增加
  2. 在做一些“需要了解很多私域知識才能做的決策”時,上下文被私域知識佔用更多token
  3. 越接近上下文上限,理解能力衰減越快,越無法做出正確的決策
  4. 為了彌補錯誤決策(比如“修bug”),又進入新一輪1~4的迴圈

最後的結果就是:用Devin實現一些小Demo沒問題,實現複雜應用時,他對應用整體理解會逐漸變差。

所以,Devin這麼久仍未對外開放,可能是在等待底層LLM能力的提升。

等更大上下文、更強推理能力的LLM問世後,沒準兒Devin就能脫胎換骨。

後記

為什麼V0bolt.newGithub SparkCursor ComposerAI程式設計師應用都將目標聚焦在AI生成小應用上?

因為在當前,AI生成小應用是一個同時滿足下面兩個條件的賽道:

  1. 在當前LLM能力三重約束(理解能力上下文長度私域知識儲備)範圍內
  2. 是金字塔模型中投入產出比很高的環節 —— 程式設計師會在“開發早期應用”上花很多時間

當我們面對AI的衝擊時,不要被宣傳噱頭嚇倒。

LLM三重約束評估下,就能知道這些應用是否能達到宣傳的效果。

相關文章