快速更迭的開源大模型領域,又出現了新王:Reflection 70B。橫掃 MMLU、MATH、IFEval、GSM8K,在每項基準測試上都超過了 GPT-4o,還擊敗了 405B 的 Llama 3.1。這個新模型 Reflection 70B,來自 AI 寫作初創公司 HyperWrite。HyperWrite 公司的 CEO Matt Shumer 表示,Reflection-70B 現在是「世界上最頂級的開源 AI 模型」。Reflection 70B 的底層模型建立在 Meta 的 Llama 3.1 70B Instruct 上,並使用原始的 Llama chat 格式,確保了與現有工具和 pipeline 的相容性。Reflection 70B 已在多個基準測試中經過嚴格測試,包括 MMLU 和 HumanEval。測試結果表明, Reflection 的表現始終優於 Meta 的 Llama 系列,並與 GPT-4o 等全球頂尖的商用模型展開了激烈競爭。其中,它在 GSM8K 的得分甚至達到了 99.2%。要知道,GSM8k 中可能有有超過 1% 的被標為正確的答案實際上有錯,也就是說,Reflection 70B 的得分幾乎與滿分無異。值得注意的還有 Reflection 70B 的零樣本推理能力。面對從未接觸過的內容,Reflection 70B 的表現超越了 Claude 3.5、Gemini 1.5 以及 Llama 405 在五次樣本測試中的得分。Reflection 70B 特別適用於需要高精度的任務,它將推理分為不同的步驟以提高精度。該模型可透過 Hugging Face 下載,API 訪問將於今天晚些時候透過 GPU 服務提供商 Hyperbolic Labs 提供。- Hugging Face:https://huggingface.co/mattshumer/Reflection-70B
- 試用網址:https://reflection-playground-production.up.railway.app/
在通用能力之外,Reflection 70B 的亮點還包括「錯誤識別」和「錯誤糾正」。一種名為「Reflection-Tuning」的技術,使得模型能夠在最終確定回覆之前,先檢測自身推理的錯誤並糾正。Reflection 70B 引入了幾個用於推理和糾錯的特殊 token,使使用者能夠以更結構化的方式與模型互動。在推理過程中,模型會在特殊標籤內輸出其推理,以便在檢測到錯誤時進行實時糾正。Playground 演示網站包含供使用者使用的建議提示詞,比如那些很經典的例子:詢問 Reflection 70B 單詞「Strawberry」中有多少個「r」,以及哪個數字更大(9.11 還是 9.9),這兩個簡單的問題曾經難倒過很多大模型。Reflection 70B 在測試中顯得有些遲緩,但最終 60 多秒後給出了正確的答案。Reflection 70B 的釋出只是 Reflection 系列的開端。與此同時,Reflection 405B 也在推出的路上了,預計下週上市。Shumer 表示,它的效能將遠遠超過目前的專有或閉源 LLM,例如目前全球領先的 OpenAI 的 GPT-4o。Shumer 宣佈,HyperWrite 正致力於將 Reflection 70B 模型整合到其主要的 AI 寫作助手產品中。Reflection 405B 有望超越當今市場上最頂尖的閉源模型。HyperWrite 將釋出一份報告,詳細介紹訓練過程和基準,以及 Reflection 模型背後的創新之處。Shumer 表示完成 Reflection 70B 只花了三週,團隊只有他和另一位 AI 創業公司的創始人 Sahil Chaudhary 兩個人。在這麼短的時間內做出效果如此好的模型,Shumer 稱,都要拜 Sahil 的公司 Glaive 所賜。Glaive 是一家專門為特定需求構建資料集的初創公司。Shumer 在 X 平臺上反覆 que 這一點:「聯絡了 Sahil 之後,訓練資料幾小時內就生成好了。」他還親自站臺安利:「如果你在訓練 AI 模型,一定要試試 Glaive 提供的服務。」Glaive 專注於解決 AI 開發中最大的瓶頸之一:高質量、任務特定資料的可用性。在去年獲得了一輪 350 萬美元的種子輪融資。小型、更專業化的語言模型在使用 Glaive 提供的服務後,能夠更快地完成訓練。已經有一些小模型使用該公司已經證明了 Glaive 的能力,例如一個 3B 引數模型在 HumanEval 等任務上的表現超過了許多引數規模更大的開源模型。Reflection 70B 一經發布,就火了,跑去試用的人太多,模型已經反應不過來了。本來可以線上試用 Reflection 70B,但現在和它聊天反應很慢。但是根據手快的網友發來的測評,Reflection 70B 也確實沒辜負六個基礎測試集裡有四個都打敗了 Claude 3.5 Sonnet 的戰績。比如,它是首個能想明白這道纏繞不清的邏輯題的大模型。提示詞:有人在某地殺了 Agatha。Agatha、管家和 Charles 住在 此地,並且是那裡唯一的居民。殺手恨他的目標,並且比受害者窮。Charles 不恨 Agatha 恨的任何人。Agatha 除了管家之外恨所有人。管家恨所有不如 Aunt Agatha 富有的人。管家恨所有 Agatha 恨的人。沒有人恨所有人。誰殺了 Agatha?向它提問:「柏林的魏森湖地區當地人通常在哪裡聚會?當地有哪些景點?」。對於這些本地人才知道的答案,其他模型雖然也能給出一些正確的回覆,但是總會冒出一些在柏林之外的地點。Reflection 70B 是第一個能正確地說出主要地點,並且沒有幻覺的模型。Reflection-70B 的編碼能力也得到了認證。有網友在 ProLLM 的編碼輔助任務中對 Reflection-70B 進行了基準測試。它確實是最好的開源模型之一,擊敗了 Llama-3.1 405B。不過,爆火的同時,由於 Reflection 70B 的底層模型採用了 Meta 的 Llama 3.1 70B Instruct,這也引發了一些爭議。有網友認為:「Reflection 70B 只是一種元提示(Meta-Prompting)的進步,似乎不能算是一種創新。」但也有人對此提出反對,認為「利用思維鏈和讓大模型說出自己的工作流程」這種方法能讓大模型更好地模擬人類思考的過程。
「萬一 Shumer 的方法 Reflection-tuning,就是 OpenAI 的 Strawberry 的方法呢?」乍一看,Reflection 70B 似乎是橫空出世,HyperWrite 的知名度並不高。但其實 Shumer 已是 AI 領域的創業老將了:2020 年,他與就 Jason Kuperberg 共同創立了 Otherside AI。 從左至右分別為 Otherside AI 的聯合創始人:Matt Shumer, Miles Feldstein 與 Jason Kuperberg。Otherside AI 憑藉其當家產品 HyperWrite 收穫了一波流量。HyperWrite 最初是一款根據要點撰寫郵件和訊息的 Chrome 外掛。後來,它的功能越來越強大,擴充出了起草文章、總結文字等功能。截至 2023 年 11 月,HyperWrite 擁有兩百萬使用者。隨著兩位聯合創始人登上了福布斯年度「30 歲以下精英」榜單,Otherside AI 也正式更名為 HyperWrite。 在最新一輪融資中, HyperWrite 獲得了 280 萬美元的投資。在這筆資金的加持下,HyperWrite 引入了 AI 驅動功能,升級成了可以從網頁瀏覽器自動完成預定航班、在 LinkedIn 上篩簡歷的智慧管家。 HyperWrite 線上幫你訂達美樂披薩的外賣。參考連結:https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/