全球首個混合推理模型:Claude 3.7 Sonnet來襲,真實編碼力壓一切對手

机器之心發表於2025-02-25

就在昨晚,Anthropic 要發新模型的訊息開始在 AI 社群廣泛發酵,不過並不是期待中的 Claude 4.0,而是 3.7 Sonnet 版本。

圖片
圖源:https://x.com/btibor91/status/1893970824484581825

今天凌晨,Anthropic 的新旗艦模型如約而至,正式釋出了其迄今為止最智慧的模型以及市面上首款混合推理模型 —— Claude 3.7 Sonnet圖片
Claude 3.7 Sonnet 可以產生近乎即時的響應或者向使用者展示擴充套件的、逐步的思考。按照 Anthropic 的說法,「一個模型,兩種思考方式」(One model, two ways to think.),即標準和擴充套件思考模式。另外 API 使用者還可以對模型的思考時間進行細粒度控制。
圖片
在釋出 Claude 3.7 Sonnet 之外,Anthropic 還推出了用於智慧編碼的命令列工具 Claude Code。它目前作為有限的研究預覽版本使用,使開發人員能夠直接從他們的終端將大量工程任務委託給 Claude。
圖片
在編碼方面,Anthropic 還改進了 Claude.ai 上的編碼體驗,其 GitHub 整合現已在所有 Claude 計劃中提供,使開發人員能夠將他們的程式碼儲存庫直接連線到 Claude。透過更深入地瞭解個人、工作和開源專案,Claude 將成為使用者在 GitHub 專案中修復錯誤、開發功能和構建文件的更強大合作伙伴。

因此,得益於編碼和前端 web 開發方面的功能與改進,Claude 3.7 Sonnet 成為 Anthropic 迄今為止最好的編碼模型

目前,新模型 Claude 3.7 Sonnet 可以透過所有 Claude 計劃(包括 Free、Pro、Team 和 Enterprise)以及 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 使用。除了免費使用者之外,所有其他使用者均可體驗擴充套件思考模式。

在標準和擴充套件思考模式下,Claude 3.7 Sonnet 的價格與其前代(Claude 3.5 Sonnet)相同,每百萬輸入 token 3 美元,每百萬輸出 token 15 美元(包括思考 token)

正如一位網友所評價的那樣,「Anthropic 的每次釋出都能讓人微笑並感到興奮!」
圖片
最強 Claude 3.7 Sonnet
讓前沿推理觸手可及

Anthropic 表示,其開發 Claude 3.7 Sonnet 的理念與市面上其他推理模型不同。正如人類使用單個大腦進行快速反應和深度思考一樣,Anthropic 認為推理應該體現前沿模型的綜合能力,而不再是完全獨立的模型。這種統一的方法將為使用者創造更無縫的體驗。

遵循上述理念,Claude 3.7 Sonnet 形成了很多獨有優勢。

首先,Claude 3.7 Sonnet 既是普通的 LLM,又是推理模型。你可以選擇何時希望模型正常回答,何時希望它在回答之前思考更長時間。在標準模式下,Claude 3.7 Sonnet 是前代 Claude 3.5 Sonnet 的升級版。在擴充套件思維模式下,它會在回答之前進行自我反思,從而提高其在數學、物理、指令遵循、編碼和許多其他任務上的表現。Anthropic 發現,兩種模式下,模型的提示詞工作方式類似。

其次,當透過 API 使用 Claude 3.7 Sonnet 時,使用者還可以控制思考預算。你可以告訴 Claude 思考不超過 N 個 token。對於任何 N 值,其輸出限制為 128K 個 token。這允許使用者在速度(和成本)和答案質量之間進行權衡。

第三,在開發自家的推理模型時,Anthropic 對數學和電腦科學競賽問題的最佳化較少,而是將重點轉向更能反映企業實際使用 LLM 方式的現實任務

我們來看下 Claude 3.7 Sonnet 的基準測試結果,其中在 SWE-bench Verified(評估 LLM 解決 GitHub 上真實軟體問題能力的基準測試資料集)上,Claude 3.7 Sonnet 實現了 SOTA 效能,遠遠超過了 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1
圖片
在 TAU-bench(評估 LLM 在複雜真實場景中使用者與工具互動能力的基準測試平臺)上,Claude 3.7 Sonnet 同樣實現了 SOTA 效能,超過了 Claude 3.5 Sonnet 和 OpenAI 的 o1。
圖片
Claude 3.7 Sonnet 在指令遵循、通用推理、多模態能力和智慧編碼方面表現出色,擴充套件思考在數學和科學方面實現了顯著提升,但在一些方面依然不及 OpenAI 的 o3-mini (high)、Grok-3 Beta 等。
圖片
可以看到,對於 Claude Sonnet 3.7,Anthropic 將重點放在了編碼能力上,其他領域似乎並不特別重要。很明顯,Anthropic 想將 Sonnet 定位為編碼 AI(已經是了)。
圖片
圖源:https://x.com/kimmonismus/status/1894098443859079609

另外,除了傳統基準之外,Claude 3.7 Sonnet 甚至可以在寶可夢(Pokémon)遊戲測試中超越所有以前的模型。

Anthropic 已經與合作伙伴進行了非常多的早期測試,證明了 Claude 在編碼能力方面的全面領先地位。

其中,Cursor 指出 Claude 再次成為現實世界編碼任務的最佳選擇,從處理複雜程式碼庫到高階工具使用都有顯著改進。Cognition 發現,Claude 在規劃程式碼更改和處理全棧更新方面遠遠優於任何其他模型。

Vercel 強調了 Claude 在複雜代理工作流程中的出色精確度,而 Replit 已成功部署 Claude 從頭開始構建複雜的 Web 應用程式和儀表板,而其他模型則停滯不前。在 Canva 的評估中,Claude 始終如一地編寫出具有卓越設計品味且可投入生產的程式碼,並大幅減少了錯誤。

Claude Code
智慧編碼讓開發更便捷

自 2024 年 6 月以來,Sonnet 一直是全球開發者的首選模型。今天,Anthropic 推出了其首款智慧編碼工具 Claude Code(有限的研究預覽版本),進一步增強開發者的能力

在功能上,Claude Code 是一個積極的協作者,可以搜尋和閱讀程式碼、編輯檔案、編寫和執行測試、提交和推送程式碼到 GitHub,以及使用命令列工具。

我們來看下它的幾個使用示例,比如解釋專案結構:
圖片
編寫測試:
圖片
構建應用:
圖片
雖然是一款早期產品,Claude Code 對於 Anthropic 團隊來說已經變得不可或缺,尤其是用於測試驅動開發、除錯複雜問題和大規模重構。

在早期測試中,Claude Code 可以一次性完成通常需要 45 分鐘以上手動工作才能完成的任務,從而減少了開發時間和開銷

在接下來的幾周內,Anthropic 計劃根據自身的使用情況不斷改進 Claude Code,包括增強工具呼叫可靠性、增加對長時間執行命令的支援、改進應用內渲染以及擴充套件 Claude 對其功能的理解。

Claude Code 的目標是更好地瞭解開發人員如何使用 Claude 進行編碼,以便為未來的模型改進提供參考。透過加入此預覽版,使用者將可以使用 Anthropic 用於構建和改進 Claude 的相同強大工具。

負責任構建與未來展望

Anthropic 對 Claude 3.7 Sonnet 進行了廣泛的測試和評估,並與外部專家合作,以確保其符合其安全性和可靠性標準。

同時,Claude 3.7 Sonnet 還對有害請求和良性請求進行了更細微的區分。與前代相比,不必要的拒絕減少了 45%。
圖片
CoT 忠實度評估結果。

在 Claude 3.7 Sonnet 的模型卡中,Anthropic 詳細細分了自身的負責任擴充套件策略評估以及其他 AI 實驗室和研究人員應用於他們工作的情況。另外,模型卡中還概覽了計算機使用帶來的新風險,特別是快速注入攻擊,並解釋了 Anthropic 如何評估這些漏洞並訓練 Claude 抵禦和緩解這些漏洞。

此外,模型卡中還研究了推理模型的潛在安全優勢,以及理解模型如何做出決策、模型推理是否真正值得信賴和可靠。
圖片
系統卡地址:https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf

對於此次釋出的 Claude 3.7 Sonnet 和 Claude Code,Anthropic 認為它們標誌著 AI 系統邁出了重要一步,開始向著真正增強人類能力邁進。憑藉著深度推理、自主工作和有效協作的能力,我們更接近了 AI 豐富和擴充套件人類能力的未來。

Anthropic 還展示了一個真正令人興奮的發展圖景,希望在 2025 年 Claude 可以成為獨立自主工作數小時的專家級智慧體;到 2027 年,希望 Claude 能夠解決人工團隊花費數年才能解決的挑戰性難題。
圖片
部落格地址:https://www.anthropic.com/news/claude-3-7-sonnet

相關文章