人工智慧和機器人技術一直在以令人難以置信的速度發展。
以下是本週發生的15個最重要的發展:
1. 英偉達推出Project GR00T,幫助機器人瞭解世界
2.英偉達還推出了NVIDIA Blackwell在NVIDIA GTC。與H100相比,它可將成本和能耗降低高達25倍。
3. 馬斯克 的Neuralink揭示了第一個使用BCI僅透過思想玩線上國際象棋的患者。 患者在1月份接受了植入手術,並報告沒有認知障礙,稱手術“超級容易”
4. Open Interpreter釋出了01 Light。 這是一個行動式開源語音介面,連線到使用者的計算機,允許AI控制應用程式,學習技能和觀察螢幕。
5.蘋果釋出了一篇新論文,推出了MM1,這是一個新的多模態AI模型系列。 最大的30B引數模型顯示出強大的學習能力,僅從少數幾個示例中學習,並對多個影像進行推理。
6.蘋果在談判將Gemini整合到iPhone中。 該更新可能會在今年晚些時候的iOS 18上向數十億使用者推出先進的AI功能。
7. 英偉達還在NVIDIA GTC上釋出了Earth-2。 這是一個雲平臺,使用AI +數字孿生技術來預測極端氣候變化和天氣。
8. Google DeepMind的研究人員開發了VLOGGER。 這是一種新的AI模型,可以從靜態影像和音訊剪輯中生成具有完整上身運動的說話化身影片。
用例包括:AI助手的現實主義,實時影片配音等等
9. xAI剛剛釋出了Grok-1的weights +架構。 它有314 B引數,使用Mixture-of-Experts,並且對於任何給定的輸入令牌,只有25%的權重處於活動狀態,以實現更有效的計算。
它是一個龐大的314 B引數語言模型,是GPT-3.5的2倍。 協作和透明的人工智慧開發取得了巨大的勝利。
10. Stability AI和普林斯頓大學的研究人員推出了MindEye 2,這是從大腦活動重建影像的一個飛躍。 該模型將大腦資料連線到影像生成模型,以產生逼真的重建。
11.史丹佛大學和加州大學伯克利分校推出了Yell At Your Robot(YAY Robot) 這是一種使用人類的自然語言反饋來提高機器人在長期任務中的效能的方法。
- YAY機器人能夠執行長時間、靈巧的操作任務,如準備混合料、包裝ziploc袋和清潔餐具
- 長期任務是困難的--時間越長,某個階段失敗的可能性就越大。
- 人類能否透過直觀和自然的反饋幫助機器人不斷改進?
- 在這項工作中,我們整合 語言改正 實時監督語言條件技能,並使用此反饋來迭代改進策略。
它是如何工作的?
- 高階策略(類似於VLM)生成語言指令。
- 然後,低階策略(端到端語言條件BC)執行該技能。這使機器人能夠理解語言指令並對其採取行動。
- 在部署過程中,人們可以透過糾正語言命令進行干預,覆蓋機器人動態適應的高階策略。
- 然後,這些干預措施被用於後期培訓和改進高階政策。
我們發現,機器人不斷地從互動中學習-透過迭代後訓練,語言糾正將自主策略的效能提高了20%。
12. Berkeley AI推出HumanoidBench。 這是一個新的模擬基準,用於評估和推進人形機器人控制和學習的演算法。
HumanoidBench是第一個模擬人形基準,具有27個不同的全身任務,需要複雜的長期規劃和協調。
HumanoidBench中的核心環境具有高度靈巧的手的機器人模型,支援以下多模態觀察:
- 1)重複模擬狀態,
- 2)自我中心視覺觀察,
- 3)全身觸覺感知
我們設計了高解析度的手部觸覺感測器,並在其他身體部位設計了較低解析度的觸覺感測器,類似於人類的觸覺。這導致在整個身體上總共有大約500個taxel,每個都提供3D(剪下+壓力)接觸力讀數。
最先進的RL演算法在最複雜的任務上掙扎。相比之下,我們發現,一個分層的學習正規化,低層次的技能政策提供給一個高層次的規劃政策,可以在很大程度上提高效能,在長期的推理。
HumanoidBench現在可用(開源)
13. Maisa宣佈了其知識處理單元的測試版Maisa KPU。 它透過將LLM的功能與解耦推理和資料處理相結合,在推理,理解和解決問題方面設定了新的標準。
- 知識處理單元是LLM的推理系統,它利用了LLM的所有推理能力並克服了其固有的侷限性。
- 透過新穎的架構,該系統將LLM定位為中央推理引擎,推動了AI功能的邊界。這種設計使KPU能夠熟練地處理複雜的端到端任務,同時消除幻覺和上下文限制。
KPU在與最有能力的語言模型進行評估時,提高了GSM8k,MATH,BBH和DROP基準測試的效能。
適合場景:幫助客戶解決訂單未到達的問題。發現客戶不小心沒把訂單ID寫對。
14. Sakana AI釋出了三種使用新訓練方法的新日本AI模型。 如果可擴充套件,它可能是人工智慧模型的一個有趣的新的替代訓練路徑。
- 引入 演化模型合併:一種新的方法,使我們更接近 自動化 基礎模型開發。我們使用進化來尋找結合開源模型的好方法,構建具有使用者指定能力的新的強大基礎模型!
- 為日本生產基礎模型。我們能夠快速開發出3款具有語言、視覺和影像生成功能的同類最佳模型,為日本及其文化量身定製。
- 使用進化系統來訓練人工智慧,建立彼此和更小的模型。 在許多方面,人工智慧訓練自己,這是機器構建和相互改進的前兆。
15.史丹佛大學的研究人員剛剛開發了安靜STaR。 這是一種有趣的新訓練方法,使AI模型能夠在響應之前進行“思考”。大模型能教自己實現一般的推理:透過內部獨白自學。
推理在文字中無處不在--只是隱藏在字裡行間。這是因為人們(通常)在說話之前會思考。因此,大模型可以學習從不同的線上文字中推理,如果他們能掌握:
- 1)下一個文字的原因
- 2)看看這個想法是否有幫助
- 3)從有益的思想中學習
令人興奮的是,在不同的Web文字上進行自我教學推理會自動提高其他推理!Mistral透過在網路資料上訓練自學,將其零射擊常識推理準確率提高了三分之一,並將其零射擊直接小學數學準確率提高了近一倍
雖然這種推理對預測大多數令牌沒有多大幫助,但它對模型發現的最難的令牌幫助最大
另外,在生成過程中,這可以與思想鏈等技術相結合,讓模型“安靜地”推理其生成的思想的每個令牌!
怎麼做到?
- 首先,Transformer LM是高效的,因為它們一次從文字中的所有位置進行訓練。但是,生成推理通常只從一個地方發出訊號。我們使用一個自定義的注意力掩碼來對所有標記進行並行取樣。達到序列長度×加速!
- 其次,我們構建了像要點標記令牌和軟提示這樣的元標記令牌:我們讓模型自己學習如何表示思想的開始。
- 此外,我們讓它決定忽略一個想法,最初給所有的想法沒有重量。這可以防止任何初始分佈偏移
Quiet-STaR概括了我們兩年前的“自學推理者”(STaR)。