Claude 3.7稱王:編碼模型新霸主

banq發表於2025-02-25

Anthropic 推出 Claude 3.7 Sonnet,結合直接回答和“擴充套件思考”模式,推理能力強,還出了程式設計工具 Claude Code。模型在數學、程式設計上表現超棒,能省時間,目標是 2027 年收入超 OpenAI 三倍,今年就能賺錢。

Anthropic 在最新版本里用了一種跟 OpenAI 不一樣的方法,推出了 Claude 3.7 Sonnet 這個模型。這是他們第一個把直接回答問題和更厲害的思考能力結合在一起的推理模型。Claude 3.7 Sonnet 是基於 Claude 3.5 Sonnet 升級來的,但多了一個很重要的功能,叫“擴充套件思考”模式。這個模式能讓模型透過回答問題的時候自己推理。

Anthropic 說,推理應該是高階模型必須會的東西。跟 OpenAI 的推理模型一樣,Claude 3.7 Sonnet 也能生成推理用的令牌。這次更新讓 Anthropic 比 OpenAI 領先了一步,因為 OpenAI 最近才公佈了類似的 GPT-5 統一架構計劃。

除了模型升級,Anthropic 還推出了 Claude Code,這是一個專門給程式設計用的命令列工具。這個工具能讓開發人員直接在終端裡把複雜的程式設計任務交給它。

增強的程式設計和除錯能力
Anthropic 的初步測試顯示,Sonnet 3.7 在實際程式設計任務裡表現特別厲害,在規劃程式碼改動和複雜更新上明顯比別的模型強。

  • 7 個 AI 模型(​​​​​​​Sonnet 3.7 、OpenAI、DeepSeek、Grok)的效能對比,在推理、編碼、數學這 8 個類別裡比。特に在數學解題和多語言問答上,這個模型拿到了超過 90% 的最高分,跟 OpenAI 或 DeepSeek-R1 的 o 模型差不多。
  • ​​​​​​​Sonnet 3.7 能從頭開始建複雜的網頁應用和儀表板,別的模型很難做到。
  • 官方部落格裡說,在測試中,​​​​​​​Sonnet 3.7 總能寫出能直接用的程式碼,設計也很好,出錯明顯少了很多。

Sonnet 3.7 不僅在編碼方面有顯著的提升,而且 Claude Code 解決了編碼時使用 LLM 的大部分主要痛點(瞭解程式碼庫上下文、快速進行更改、專注於關鍵片段而不是編寫整個檔案……等等)。

Claude Code:基於代理的程式設計新方法 Claude Code 是 Anthropic 第一個基於代理的程式設計工具,現在是給少數人研究試用的階段。它能搜程式碼、讀程式碼、改檔案、寫測試、跑測試,還能把程式碼提交推到 GitHub 上,也能用命令列工具。

初步測試表明,Claude 能一次搞定通常要手動忙 45 分鐘以上的任務,省了好多開發時間和力氣。

Anthropic 計劃透過加強工具呼叫的可靠性、支援跑很久的命令、改進應用渲染來不斷升級這個工具。他們想更明白開發人員怎麼用 Claude 程式設計,好指導以後模型的改進。

提高安全性和響應處理能力
公司說,Claude 3.7 Sonnet 能更好分清哪些請求有問題哪些沒問題,比以前的版本少拒絕了 45% 不該拒絕的請求。Anthropic 做了很多測試,還跟外面的專家合作,確保模型安全又靠譜。

這公司從一開始就很重視安全和負責任地用人工智慧,但因為 Claude對提示很小心,有時候會限制得讓人覺得奇怪或者有疑問。

據稱距離人工智慧突破還有兩年時間 :Anthropic 覺得 Claude 3.7 Sonnet 和 Claude Code 是走向真能幫人類幹活的人工智慧的重要一步。他們預測,到 2027 年,Claude 會找到“解決難題的突破性辦法”。現在,他們說 Claude 能按專家級人類水平幹活,省下“工作時間”。

公司還強調了 Claude 在基於代理任務上的潛力,最近透過 Claude Computer Use 展示了這點,它能讓人工智慧控制軟體和作業系統。

Anthropic 好像主要在搞中端 Sonnet 系列。雖然 Sonnet 和小的 Haiku 最近升到了 3.5 版,但最大的型號 Opus 還是 3 版。

網友:
1、它甚至可以製作互動式“3D遊戲”
https://claude.site/artifacts/3e10c118-bdf8-40a3-b057-3c716d7f06a1

2、它在程式設計方面表現得非常出色,在其他方面也表現不錯。

3、在人工智慧模型出現之前,軟體版本控制就已經很混亂了,但是 Claude 的版本控制確實非常隨意

4、哇,Claude 3.7 的推理能力超牛,在Darryl Strawberry測試裡大秀了一把——自己寫程式碼就把問題解決了。幹得真漂亮!
Darryl Strawberry測試就是計算 "Darryl Strawberry" 中有多少個字母 "R",我們可以手動數一數,或者編寫一個簡單的程式來實現,讓Claude 3.7程式設計來自動寫程式碼。

5、堅實的進步,我使用了三個我通常使用 html/css/jagvascript 執行的繪圖基準,它擊敗了其中兩個,其中兩個是我見過的最好的。在我看來,anthropic 取得了非常堅實的進步,它是開發人員編碼模型的新王者。

 

相關文章