Open AI 的推理模型 o1,這麼快就被比下去了?
本週五,AI 社群見證了又一項突破:一個完全自動化機器學習流程的 AI 工程師,能輕鬆獲得 Kaggle 大師水平,在參與的 50 個 Kaggle 競賽上獲得了其中 26% 的獎牌,成績遠遠優於之前 Open AI 的強化學習加強版的 o1 模型。
創造這項紀錄的 AI,來自一家名為 NEO 的創業公司。
據該公司介紹,NEO 可以自動化整個機器學習的工作流程,為開發人員節省數千小時的繁重工作。它是一個多智慧體(AI Agent)系統,可用並行的方式解決單一問題。
目前這一 AI 系統還在內測申請階段,除了影片 Demo 內容,我們還能找到官方的簡單介紹:
機器學習中的挑戰
首先是 NEO 希望解決的問題。
機器學習的「從資料中學習」這一看似簡單的前提掩蓋了開發人員每天面臨挑戰的複雜性。雖然傳統程式設計遵循明確的規則和邏輯路徑,但機器學習引入了一系列新的不確定性,即使是經驗豐富的開發人員也難以應對。從本質上講,機器學習不僅需要程式碼開發的專業知識,還需要對統計學、線性代數和微積分有深入的理解,這是許多軟體工程師自大學畢業後就不再遇到的數學問題。
開發人員面臨的第一個障礙是資料質量和準備。原始資料很少以乾淨、直接可用的格式出現。相反,開發人員必須花費大量時間處理缺失值、異常值和不一致的格式,同時做出有關資料清理的關鍵決策,這可能會顯著影響模型效能。
模型的選擇帶來了另一層複雜性。在解決某個問題時通常會有幾十種演算法可用,每種演算法都有自己的優勢和侷限性,選擇正確的方法成為一個關鍵的決策點。僅神經網路就提供了無數的架構可能性,從簡單的前饋網路到 Transformer,每個模型都需要仔細調整超引數。
計算資源增加了另一個複雜性維度。雖然小型模型可以在膝上型電腦上執行,但很多機器學習開發通常需要雲基礎設施、分散式計算和 GPU 最佳化。開發人員必須熟練掌握 Docker、Kubernetes 和各種雲平臺等工具。
部署本身也帶來了一系列挑戰。在開發過程中表現優秀的模型可能會隨著資料漂移而退化,需要持續監控和重新訓練 pipeline。開發人員不僅必須跟蹤程式碼更改,還必須跟蹤資料版本、模型引數和訓練配置。
這可能意味著開發人員要在每個步驟中投入數週或數月的工時,才能構建一個能夠有效解決問題的 AI 模型。
NEO—— 完全自主的機器學習工程師
NEO 的出現大幅簡化了這整套機器學習工作流程,使工程師能夠以 10 倍的速度構建和部署 pipeline。它的開發充分考慮了機器學習專業人士的需求,並被設計為像實習生一樣,能夠從人類的反饋中進行學習。
它是如何運作的?NEO 是由多個智慧體驅動多個專門模型實現的,每個微調模型專門用於機器學習生命週期的不同部分。
面對具體目標,NEO 會啟動一套完整的工作流以達成目標。NEO 透過結構化的多步驟方法,將複雜問題拆解為易於管理的元件,化繁為簡,從而實現目標。
這一方法包括計劃、編碼、執行和除錯的持續迴圈,確保在每個階段都進行充分最佳化。在這個過程中,NEO 會根據進展不斷調整和迭代,直到獲得最佳結果。一旦開發者批准 NEO 的輸出,整個工作流程即可在幾秒鐘內部署。NEO 為機器學習工程師簡化了上述所有複雜環節。
它的目標不是取代資料科學家或工程師,而是與人類合作並處理所有繁重任務。在人與 AI 合作的工作環境中,人們僅用幾個小時就能完成一週的工作。
聽起來有點像今年 3 月在 AI 社群爆火的首個 AI 軟體工程師 Devin,不過多智慧體的方法青出於藍。
NEO 展示了一系列實際工作的 demo,當要求 NEO 構建一個信用卡欺詐檢測系統時,它給出了流暢的任務解決方案:
當要求 NEO 使用協同過濾方法構建一本書籍推薦模型時,它自動完成了資料集的準備工作,還進行了探索性分析,並對資料預處理進行了結構性最佳化,使資料集能夠更好地用於訓練:
那麼它的跑分如何呢?研究團隊在 MLE 基準測試(MLE-bench)上對 NEO 進行了全面評估。MLE-bench 是一種創新的基準測試,專注於將 AI 智慧體應用於真實世界的機器學習工程任務。與其他人工設計的挑戰不同,這個基準測試透過 75 場實際的 Kaggle 競賽來評估 AI 智慧體在機器學習工程中的表現,具有極高的實用性。
在 50 場 Kaggle 競賽測試中,NEO 表現堪稱卓越:在 26% 的競賽中獲得獎牌,超越了 OpenAI 最新推理加強模型 o1 的基準成績。為了更直觀地理解這一成就,看看 NEO 到底是什麼水準,Kaggle 金牌的獲得要求就很直白:參賽團隊需要進入所有團隊排名前 10%。這通常需要極高的專業技能、創新方法以及精細最佳化。
這回落在 NEO 後面的,是搭配 AIDE 框架的 o1-preview 了。
NEO 在 50 場 Kaggle 比賽中進行了測試,並在其中 26% 的比賽中獲得了獎牌,這一表現遠遠優於此前的搭配 AIDE 框架 Open AI 的 o1 在 MLE 基準測試中的 16.9% 的表現。
NEO 的表現不僅僅是資料,它代表了 AI 輔助機器學習工程的一個突破。憑藉如此表現,NEO 已達到堪比 Kaggle 競賽特級大師的水平,為使用者帶來了世界級的機器學習專業能力。
官方稱,NEO 不僅僅是一款 AI 工具,而是一個像資料競賽冠軍一樣的人類合作伙伴,隨時準備解決複雜的資料挑戰,以經過驗證的競賽獲勝能力助你一臂之力。
NEO 的釋出在 AI 社群引發了不小的關注,人們非常期待這款新工具能夠幫助我們解決繁重的工作,不過也有人認為,目前的展示還只是一面之詞,具體情況還得看網友實測。
多智慧體的 AI 真的有如此高的潛力嗎?讓我們拭目以待。
參考連結:
https://heyneo.so/blog