大家好,我卡頌。
Devin
,全球第一款號稱AI程式設計師的應用,號稱可以完成從寫程式碼、改bug,一直到部署上線運維的軟體開發全流程。
這是個宏大的願景,如果實現了,毫無疑問對程式設計師崗位將造成極大衝擊。
那麼,他的現狀如何?現狀背後反映了什麼?程式設計師又該如何看待AI程式設計師帶來的競爭?
本文讓我們聊聊這些話題。
歡迎加入人類高質量前端交流群,帶飛
簡單介紹下Devin
Devin
的介面採用左右佈局,包括兩部分:
- 左:
Devin
與使用者交流的介面 - 右:一個整合常用開發工具的沙箱,包括
Shell
、IDE
、瀏覽器和Devin
自身拆解目標形成的執行計劃
沙箱裡的工具完全受控於Devin
,理論來說,程式設計師用這些工具能辦到的事他都能辦到。
Devin的現狀
根據谷歌指數,Devin
的熱度出現過兩次高峰,分別是:
- 24年3月,應用釋出
- 24年4月,事件營銷產生了極大討論度
但是熱度並沒有轉化為關注度,後續熱度持續走低。
從其油管官方賬號的影片播放能看出,3月的首發影片獲得了100w+播放,而7月的介紹影片只有3k播放。
是什麼原因呢?
雖然憑藉全球第一個AI程式設計師的噱頭,Devin
一經發布就獲得極大關注。
但是,應用並沒有對公眾開放,而是採用報名等試用名額的機制。
等到4月,少部分試用影片流出。
大家發現,這些影片中體現的編碼能力並不比市面上常見的編碼應用(比如v0)更厲害。
其中流傳最廣的是官方釋出的影片案例 —— 用Devin在外包網站上接單,併成功交付。
這個影片太火了,以至於被髮單的甲方看到,並專門做了個影片Devin didn't solve my computer vision project澄清Devin
實際上並沒有解決他發單的問題。
這不就尷尬了嘛~
截止目前(24年11月),Devin
已釋出近8個月,仍未對外開放。
再考慮到他日漸走低的聲量,這是否意味著這款應用失敗了?其實並不一定。
接下來,我將聊聊AI程式設計師應用背後的邏輯。
AI程式設計師背後的邏輯
對於大網際網路公司來說,程式設計師薪酬是一筆極大的開銷,甚至可能佔到總開支的15%~25%。
所以,對程式設計師工作環節中任何部分的提效都是符合公司利益的。
應用側程式設計師的工作主要圍繞上線一款應用展開,讓我們將其按“工作環節”拆解:
其中很多環節都需要程式設計師介入。
我們選擇其中的開發環節繼續拆解,得到如下結果:
再繼續對前端開發環節拆解,得到如下結果:
如果我們對圖中所有環節進行遞迴拆解,會獲得一個金字塔結構的樹狀圖,圖中每個節點就是一個工作環節。
AI程式設計師應用就是對金字塔中與程式設計師工作相關的環節進行提效。
那究竟該對哪些環節進行提效呢?
LLM發展的三個約束
Devin
的目標可以說是AI程式設計師應用的終極形態 —— 他希望完全取代程式設計師,完成金字塔模型中“與程式設計師相關的所有工作環節”。
但正如開篇提到的,當前他還無法勝任這個工作。
究其原因,就像汽車依賴引擎,任何AI應用
的底層都依賴LLM
(大模型)。
而LLM
的能力受到三個約束:
- 理解能力
- 上下文長度
- 私域知識儲備
這三種能力互相制約,舉個例子:
Claude-3.5-sonnet-200k
上下文長度號稱200k。也就是說,極限工況下,他能一次性理解“包含大概1.6w行程式碼的專案”。
但實測發現:
- 越接近上下文上限,理解能力衰減越快
- 程式碼邏輯越複雜,理解能力衰減越快
經過我的測試,他能勝任“程式碼量9k行以內的常規專案”。
Devin
面對的也是一樣的問題:他在工作過程中會不斷積累私域知識,並在需要時隨時檢閱這些知識。
比如:開發環節
開發UI元件
需要知道設計環節
定下的設計規範。
所以,Devin
的執行會經歷如下過程:
- 隨著程式的執行,私域知識儲備增加
- 在做一些“需要了解很多私域知識才能做的決策”時,上下文被私域知識佔用更多
token
- 越接近上下文上限,理解能力衰減越快,越無法做出正確的決策
- 為了彌補錯誤決策(比如“修bug”),又進入新一輪1~4的迴圈
最後的結果就是:用Devin
實現一些小Demo沒問題,實現複雜應用時,他對應用整體理解會逐漸變差。
所以,Devin
這麼久仍未對外開放,可能是在等待底層LLM
能力的提升。
等更大上下文、更強推理能力的LLM
問世後,沒準兒Devin
就能脫胎換骨。
後記
為什麼V0
、bolt.new、Github Spark、Cursor Composer
等AI程式設計師應用都將目標聚焦在AI生成小應用上?
因為在當前,AI生成小應用是一個同時滿足下面兩個條件的賽道:
- 在當前
LLM
能力三重約束(理解能力
、上下文長度
、私域知識儲備
)範圍內 - 是金字塔模型中投入產出比很高的環節 —— 程式設計師會在“開發早期應用”上花很多時間
當我們面對AI的衝擊時,不要被宣傳噱頭嚇倒。
用LLM三重約束
評估下,就能知道這些應用是否能達到宣傳的效果。