碾壓GPT-4！Claude3到底有多強？

公众号-JavaEdge發表於2024-03-12

原文網址 : https://www.cnblogs.com/JavaEdge/p/18068215

2024年3月4日，官方宣佈推出 Claude 3 模型系列，它在廣泛的認知任務中樹立了新的行業基準。該系列包括三個按能力遞增排序的最先進模型：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每個後續模型都提供越來越強大的效能，允許使用者為其特定應用選擇智慧、速度和成本之間的最佳平衡。

Opus 和 Sonnet 現在已經可以在 claude.ai 和目前在 159個國家普遍可用的 Claude API 中使用。Haiku 很快也會上市。

Claude 3 模型系列

智慧新標準

Opus， Claude最智慧的模型，在大部分常用的 AI 系統評估基準上表現優於同行，包括本科水平專家知識（MMLU）、研究生水平專家推理（GPQA）、基礎數學（GSM8K）等。它在複雜任務上展示了接近人類的理解和流利程度，引領了通用智慧的前沿。

所有 Claude 3 模型在分析和預測、細膩的內容創作、程式碼生成以及使用西班牙語、日語和法語等非英語語言對話方面的能力都有所提升。

下面是 Claude 3 模型與 Claude同行在多個能力基準測試比較：

近乎即時的結果

Claude 3 模型可以為實時客戶聊天、自動補全和資料提取任務提供動力，這些響應必須是即時和實時的。

Haiku 是市場上智慧範疇價效比最高的模型。它可以在不到三秒的時間內讀懂一個資訊和資料密集的 arXiv 上的研究論文（約10k 個 Token），包括圖表和圖形。上市後， Claude預計效能會進一步提高。

對於大多數工作負載，Sonnet 的速度是 Claude 2 和 Claude 2.1 的兩倍，智慧水平也更高。它擅長迅速響應的任務，如知識檢索或銷售自動化。Opus 以與 Claude 2 和 2.1 相似的速度交付，但智慧水平更高。

強大的視覺能力

Claude 3 模型擁有與其他領先模型相當的複雜視覺能力。它們可以處理包括照片、圖表、圖形和技術圖紙在內的廣泛視覺格式。 Claude特別高興為 Claude的企業客戶提供這種新的方式，其中一些客戶的知識庫有多達50%以多種格式編碼，如PDF、流程圖或演示幻燈片。

更少的拒絕

先前的 Claude 模型經常做出不必要的拒絕，這表明缺乏上下文理解。 Claude在這一領域取得了有意義的進展：與上一代模型相比，Opus、Sonnet 和 Haiku 大大減少了拒絕回應那些觸及系統保護邊界的提示。如下所示，Claude 3 模型對請求有更微妙的理解，識別真正的危害，並且更少地拒絕回答無害的提示。

提高準確率

各種規模的企業都依賴 Claude的模型為他們的客戶服務，因此對於模型輸出來說，保持高準確率是至關重要的。為了評估這一點， Claude使用了一套複雜的、真實的問題，這些問題針對目前模型的已知弱點。 Claude將回應分為正確答案、錯誤答案（或幻覺）以及不確定性宣告，即模型表示它不知道答案，而不是提供錯誤資訊。與 Claude 2.1 相比，Opus 在這些具挑戰性的開放式問題上的準確度（或正確答案）表現出了兩倍的提升，同時還展現出降低了錯誤答案的水平。

除了產生更值得信賴的回應外， Claude很快還將在 Claude 3 模型中啟用引用功能，從而使它們能夠指向參考材料中的精確句子以驗證它們的答案。

長上下文和近乎完美的回憶

Claude 3 模型系列在釋出之初將提供 200K 上下文視窗。然而，所有三個模型都能夠接受超過 100 萬個 Token 的輸入， Claude可能會向需要增強處理能力的選定客戶提供這一點。

為了有效處理長上下文提示，模型需要強大的回憶能力。'大海撈針' (NIAH) 評估衡量模型從大量資料中準確回憶資訊的能力。 Claude透過使用每個提示中的 30 個隨機針/問題對之一，並在多樣化的眾包文件語料上進行測試，增強了這一基準測試的穩健性。Claude 3 Opus 不僅實現了近乎完美的回憶，準確率超過了 99%，在某些情況下，它甚至識別出評估自身的侷限性，識別出“針”句似乎是人為插入到原文中的。

負責任的設計

Claude開發 Claude 3 模型系列，旨在讓它們像它們的能力一樣值得信賴。 Claude有幾個專門的團隊跟蹤和減輕廣泛的風險，範圍從錯誤資訊和CSAM到生物濫用、選舉干預和自主複製技能。 Claude繼續開發諸如 Constitutional AI 這樣的方法來提高 Claude模型的安全性和透明度，並已調整 Claude的模型以減輕可能由新模式引發的隱私問題。

在日益複雜的模型中解決偏見問題是一項持續的努力，而 Claude在這次新發布中取得了進步。如模型卡所示，Claude 3 根據 Bias Benchmark for Question Answering (BBQ) 的評估顯示出比 Claude以前的模型更少的偏見。 Claude仍然致力於推進減少偏見並促進 Claude模型中更大中立性的技術，確保它們不會傾向於任何特定的黨派立場。

儘管 Claude 3 模型系列在生物學知識、網路相關知識和自主性方面相比以前的模型取得了進步，但它仍然符合 Claude Responsible Scaling Policy 中的 AI 安全等級 2 (ASL-2)。

本文由部落格一文多發平臺 OpenWrite 釋出！

新火種AI|谷歌深夜釋出復仇神器Gemini，原生多模態碾壓GPT-4？
2023-12-07
AI谷歌GPT
碾壓Python！為什麼Julia速度這麼快？
2019-03-09
Python
RedisJson釋出官方效能報告，效能碾壓ES和Mongo
2021-11-25
RedisJSONGo
Python 到底有多“香”
2019-04-09
Python
EMAS Serverless到底有多便利？
2022-08-17
Server
沃趣釋出QData T5 效能價格均碾壓Exadata
2018-05-07
憑藉獨特機制，4JNET或實力碾壓Safemoon
2021-10-27
2018世界人工智慧藍皮書：看中國到底有多強！
2018-11-27
人工智慧
使用Claude3而非ChatGPT五個理由
2024-04-18
ChatGPT
被索尼相中的中國獨立遊戲《邊境計劃》到底有多強？
2019-05-29
遊戲
蘋果 M2 晶片效能升級，相比 M1 到底有多強大？
2022-02-18
蘋果晶片
蘋果的上位史證明, Waymo無人車可被創業公司碾壓
2019-02-25
蘋果創業
剛出爐！年度榜單：Python三連冠，碾壓Java！你怎麼看？
2019-09-24
PythonJava
飄刃，速度碾壓 Vue-CLI 的輕量級 Vue 專案構建工具
2019-04-26
Vue
教育部：學Python從高中生抓起！我會被00後碾壓嗎？
2018-03-02
Python
現在做小遊戲到底有多難？
2020-06-19
遊戲
ChatGPT的使用範圍到底有多廣？
2024-06-28
ChatGPT
補鏈強鏈多措並舉承壓而上顯現韌性
2022-03-14
小米6S曝光：驍龍835全面屏次旗艦機，碾壓驍龍710！
2018-10-16
《山海經》手遊廣告到底有多野?
2020-05-22
Speedtest：2020年4月全球網速指數排行榜亞洲全面碾壓歐美
2020-06-11
AMD銳龍5 2400G超頻測試：價效比碾壓i5-8400
2018-03-30
10：1，AlphaStar橫空出世，碾壓星際爭霸2人類職業玩家 TLO 和 MaNa
2019-01-28
AST星際爭霸2
AI在遊戲裡碾壓了我們之後，又準備去開發遊戲了
2020-06-09
AI開發遊戲
EXCEL竟靠這招碾壓大資料，網友:以前不會用真是瞎了眼了
2020-11-10
Excel大資料
效能碾壓，價格僅為英特爾一半：AMD推出全新Ryzen旗艦處理器
2019-05-28
o3-mini 碾壓DeepSeek R1？一條python程式引發近400萬圍觀
2025-02-02
Python
新火種AI|谷歌Gemini被曝誇大營銷？碾壓GPT4純靠“一張嘴”
2023-12-08
AI谷歌GPT
任天堂翻車了，銷量口碑均被對手碾壓，紙片人馬里奧究竟錯在哪？
2020-07-27
千鋒雲端計算教程全新升級！碾壓式迭代變革，構築技術壁壘
2020-04-30
240Hz重新整理率到底有多變態？
2019-04-16
當一個java程式設計師到底有多難
2018-10-09
Java程式設計師
壓測的話，壓測客戶端多 IP 和一個 IP 多埠進行壓測有區別嗎？
2020-11-18
客戶端
GPT-4 來了！這些開源的 GPT 應用又要變強了
2023-03-17
GPT
【GPT-4理論篇-1】GPT-4核心技術探秘
2023-05-19
GPT
碾壓美國的蘇聯AI事業：生於赫魯曉夫，死於勃列日涅夫
2020-06-15
AI
現象級SUV！Model Y降價才剛剛開始，從豪華到平民，碾壓式打擊？
2021-01-14
前後端、多語言、跨雲部署，全鏈路追蹤到底有多難？
2021-10-12
後端