2024年3月4日,官方宣佈推出 Claude 3 模型系列,它在廣泛的認知任務中樹立了新的行業基準。該系列包括三個按能力遞增排序的最先進模型:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每個後續模型都提供越來越強大的效能,允許使用者為其特定應用選擇智慧、速度和成本之間的最佳平衡。
Opus 和 Sonnet 現在已經可以在 claude.ai 和目前在 159個國家普遍可用的 Claude API 中使用。Haiku 很快也會上市。
Claude 3 模型系列
智慧新標準
Opus, Claude最智慧的模型,在大部分常用的 AI 系統評估基準上表現優於同行,包括本科水平專家知識(MMLU)、研究生水平專家推理(GPQA)、基礎數學(GSM8K)等。它在複雜任務上展示了接近人類的理解和流利程度,引領了通用智慧的前沿。
所有 Claude 3 模型在分析和預測、細膩的內容創作、程式碼生成以及使用西班牙語、日語和法語等非英語語言對話方面的能力都有所提升。
下面是 Claude 3 模型與 Claude同行在多個能力基準測試比較:
近乎即時的結果
Claude 3 模型可以為實時客戶聊天、自動補全和資料提取任務提供動力,這些響應必須是即時和實時的。
Haiku 是市場上智慧範疇價效比最高的模型。它可以在不到三秒的時間內讀懂一個資訊和資料密集的 arXiv 上的研究論文(約10k 個 Token),包括圖表和圖形。上市後, Claude預計效能會進一步提高。
對於大多數工作負載,Sonnet 的速度是 Claude 2 和 Claude 2.1 的兩倍,智慧水平也更高。它擅長迅速響應的任務,如知識檢索或銷售自動化。Opus 以與 Claude 2 和 2.1 相似的速度交付,但智慧水平更高。
強大的視覺能力
Claude 3 模型擁有與其他領先模型相當的複雜視覺能力。它們可以處理包括照片、圖表、圖形和技術圖紙在內的廣泛視覺格式。 Claude特別高興為 Claude的企業客戶提供這種新的方式,其中一些客戶的知識庫有多達50%以多種格式編碼,如PDF、流程圖或演示幻燈片。
更少的拒絕
先前的 Claude 模型經常做出不必要的拒絕,這表明缺乏上下文理解。 Claude在這一領域取得了有意義的進展:與上一代模型相比,Opus、Sonnet 和 Haiku 大大減少了拒絕回應那些觸及系統保護邊界的提示。如下所示,Claude 3 模型對請求有更微妙的理解,識別真正的危害,並且更少地拒絕回答無害的提示。
提高準確率
各種規模的企業都依賴 Claude的模型為他們的客戶服務,因此對於模型輸出來說,保持高準確率是至關重要的。為了評估這一點, Claude使用了一套複雜的、真實的問題,這些問題針對目前模型的已知弱點。 Claude將回應分為正確答案、錯誤答案(或幻覺)以及不確定性宣告,即模型表示它不知道答案,而不是提供錯誤資訊。與 Claude 2.1 相比,Opus 在這些具挑戰性的開放式問題上的準確度(或正確答案)表現出了兩倍的提升,同時還展現出降低了錯誤答案的水平。
除了產生更值得信賴的回應外, Claude很快還將在 Claude 3 模型中啟用引用功能,從而使它們能夠指向參考材料中的精確句子以驗證它們的答案。
長上下文和近乎完美的回憶
Claude 3 模型系列在釋出之初將提供 200K 上下文視窗。然而,所有三個模型都能夠接受超過 100 萬個 Token 的輸入, Claude可能會向需要增強處理能力的選定客戶提供這一點。
為了有效處理長上下文提示,模型需要強大的回憶能力。'大海撈針' (NIAH) 評估衡量模型從大量資料中準確回憶資訊的能力。 Claude透過使用每個提示中的 30 個隨機針/問題對之一,並在多樣化的眾包文件語料上進行測試,增強了這一基準測試的穩健性。Claude 3 Opus 不僅實現了近乎完美的回憶,準確率超過了 99%,在某些情況下,它甚至識別出評估自身的侷限性,識別出“針”句似乎是人為插入到原文中的。
負責任的設計
Claude開發 Claude 3 模型系列,旨在讓它們像它們的能力一樣值得信賴。 Claude有幾個專門的團隊跟蹤和減輕廣泛的風險,範圍從錯誤資訊和CSAM到生物濫用、選舉干預和自主複製技能。 Claude繼續開發諸如 Constitutional AI 這樣的方法來提高 Claude模型的安全性和透明度,並已調整 Claude的模型以減輕可能由新模式引發的隱私問題。
在日益複雜的模型中解決偏見問題是一項持續的努力,而 Claude在這次新發布中取得了進步。如模型卡所示,Claude 3 根據 Bias Benchmark for Question Answering (BBQ) 的評估顯示出比 Claude以前的模型更少的偏見。 Claude仍然致力於推進減少偏見並促進 Claude模型中更大中立性的技術,確保它們不會傾向於任何特定的黨派立場。
儘管 Claude 3 模型系列在生物學知識、網路相關知識和自主性方面相比以前的模型取得了進步,但它仍然符合 Claude Responsible Scaling Policy 中的 AI 安全等級 2 (ASL-2)。
本文由部落格一文多發平臺 OpenWrite 釋出!