AI好好用報導
編輯:Sia
行業似乎正朝著一個未來邁進,即一個模型可以做所有事情,而不是提供獨立的推理模型。
看來 AI 圈的軍備競賽,又要進入新回合了~
繼去年 6 月推出超能打的 Claude 3.5 Sonnet 後,OpenAI 勁敵 Anthropic 又拿出了新的旗艦模型 Claude 3.7 Sonnet。
它不僅是 Anthropic 首個能夠推理的 AI 模型,還號稱業界首個「混合推理模型」。前兩天也有科技媒體報導,OpenAI 可能即將釋出自己的混合 AI 模型。
啥叫混合推理模型?
簡單來說,o3-mini、R1、Gemini 2.0 Flash Thinking 和 Grok 3 ( Think ) 等都是單獨提供推理模型。
而 Claude 3.7 Sonnet 用一種混合推理架構,將邏輯推理與生成能力進行了深度融合。
換句話說,Claude 3.7 Sonnet 既是普通的基礎模型,日常嘮嗑秒回你(標準模式);又是推理模型,遇到燒腦題可切換學霸模式(擴充套件模式)。
聊天框裡就能自由切換,非常方便!
咱們人類聊天,簡單問題脫口而出,複雜問題托腮思考,根本沒有兩個獨立的大腦分別應對不同問題。
所以,Anthropic 認為,推理只是前沿模型應該具備的功能之一,可以與其他功能順利整合,不該是個需要單獨付費才能訪問的獨立功能。
只要你是付費使用者,這波升級就算白給!
還是每月 20 美元的訂閱費,即可解鎖推理功能!
開發者可透過「scratchpad」功能干預模型思考過程,甚至精確控制響應時間(如要求200毫秒內響應)。
據《華爾街日報》的報導,Anthropic 釋出 Claude 3.7 Sonnet,年化收入約為 12 億美元,公司仍在虧損。
Anthropic 正在完成一輪 35 億美元的融資,估值達到 615 億美元。如果融資成功,Anthropic 的總籌集金額將接近 180 億美元。
-1-
程式碼:妥妥的 NO.1
基準測試顯示,3.7 版本在數學和編碼任務中表現顯著提升,能處理更復雜的多步驟問題。
簡單探討顏色名稱的起源與歷史事件之間的關係——「如果沒有 Magenta 這個小鎮,『洋紅色』的叫法還存在嗎?」
啟動擴充套件思考,Claude 3.7 Sonnet 推理能力顯然線上:
名字來源於紀念這座小鎮的一場戰役,如果小鎮不存在,這個顏色的名字就可能是另一個名稱,答案說,不會有這個名字的存在。
正確!來自科技媒體arstechnica
當然,3.7 版本的編碼能力最為突出,以至於人們會揣測 Anthropic 要將 Sonnet 系列定位為編碼 AI。
一些科研人員也與 Nature 分享過經驗,認為 Claude 屬於「程式碼型」。
事實上,Claude 3.5 早已是很多開發者心目中最佳的 AI 程式設計的模型,Claude 3.7 進一步將這一優勢提升了 20%,穩居第一。Claude 一直就是很多開發者心目中最佳的 AI 程式設計的模型。
新模型到底有多驚豔呢?
有網友用 Claude 3.7 Sonnet 編寫新春版貪吃蛇遊戲,一次成功。
來自 X @wshuyi
生成動畫天氣卡片,展示四種天氣條件:風、雨、晴、雪,每種都有不同的動畫效果,並且要並排顯示在一個深色背景上。
此外,還要有一個功能或按鈕來切換不同的天氣條件,展示每種動畫。
X@AGI_FromWalmart
更復雜一點。「做一個可以互動的時間機器,挑選一些不尋常的時代,供人穿越回到過去,併發生一些有趣的事情。」並且,「新增更多圖形。」
僅僅透過這兩個提示,就產生了一個完全可互動的體驗,配有粗糙但迷人的畫素圖形。
這裡的挑戰性在於 AI 必須用純程式碼「繪製」這些圖形,這就像要求一位盲人畫家準確呈現它們。
來自X@emollick
再來一個。讓 Claude 基於赫爾曼·梅爾維爾的故事《巴特比,抄寫員》創作一款具有獨特機制的影片遊戲。
結果,它僅憑一個提示就完成了。
來自X@emollick
建立一個 3D 城市場景。
來自 X@ozgrozer
一個三角球在十二邊形內彈跳,每次彈跳時球都會改變顏色,背景是太空。
來自X@KungFuKurrupttt
看看這個多米諾骨牌效應。
來自 X@_akhaliq
-2-
AI Agent :Claude Code
到目前為止,2025 年是 R1 、 o3、以及 AI Agent 工具(如 OpenAI 的Operator 和 Deep Research )的一年。
Anthropic 也不甘落後,同時宣佈了其首款代理工具 Claude Code。
這是一款自主編碼助手,你可以直接將大量的終端任務委派給它—— Claude Code 可以搜尋和閱讀程式碼、編輯檔案、編寫和執行測試、提交和推送程式碼到 GitHub,以及使用命令列工具。
有人用 Sonnet 3.7 進行影片編碼,發現效果非常出色。他們還開發了一個機器人,這個機器人可以使用 Claude Code 將 Linear 任務工單自動轉換成 GitHub 上的拉取請求。
來自X@pveerina
在這個案例中,Claude 3.7 Sonnet 與 Claude Code 一次性建立了整個玻璃風格的設計系統,包含所有元件, 甚至正確使用了變數而不是像顏色等那樣硬編碼。
來自X@skirano
Anthropic 還希望 Claude Code 能作為除錯和重構任務的助手。公司聲稱,在內部測試中,Claude Code 能在一次會話中完成通常需要超過 45 分鐘的手動工作。
目前,Claude Code 僅作為有限的研究預覽提供,Anthropic 表示計劃根據使用者反饋不斷改進該工具。
-3-
svg 繪圖王者
還記得那個讓大模型惱火的 svg 繪圖挑戰賽嗎?請畫一隻騎腳踏車的鵜鶘。
在這場 svg 視覺化能力實測中,大模型們幾乎全軍覆沒,除了 Claude,以至於 Andrzej Karpathy 推測 Claude 是針對 svg 專門訓練過的。
這回,Claude 3.7 再次證明自己依然是 svg 視覺化的王者。
來自X@simonw,這是沒有啟用推理功能(左)和啟用後(右)的對比。
有網友請它建立一個 svg 格式的 Swimlane Diagram,需要滿足一系列複雜的規範。
結果,3.7版本完美生成了 svg 的 Swimlane Diagram。
來自X@LinearUncle
還有人發現花的 tokens 越多,獨角獸越像獨角獸。
來自X@DimitrisPapail
至於講笑話嘛,要求「創作 5 個世界上找不到的原創老爸笑話」。這是一些結果:
「為什麼程式設計師要洗澡?因為他們要除錯程式碼!」
「氣象學家對 IT 專家說了什麼?『你的雲端計算預測看起來有點技術性,還有更新的可能!』」
………
看完後,我只想說「把我的槍拿來。」
來自科技媒體arstechnica
值得注意的是,Claude 3.7 Sonnet 仍然缺乏其他模型的實時網路搜尋功能,其知識截止日期為 2024 年 10 月。
以後我們會帶來更多好玩的AI評測,也歡迎大家進群交流。