Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報

RTE开发者社区發表於2024-09-04

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、第一個開源的具有實時對話能力的多模態模型:Mini-Omni

Mini-Omni 是一個開源多模型大型語言模型,可以一邊聽、一邊說,一邊思考。具有實時端到端語音輸入和流音訊輸出對話功能。Mini-Omni 是清華大學啟元實驗室開源的專案,能聽、能說也能實時思考,在實時語音互動上媲美 GPT-4o。

Mini-Omni 特徵

  • 實時語音到語音的對話能力: 無需額外的 ASR 或 TTS 模型
  • 邊思考邊說話: 能夠同時生成文字和音訊
  • 流式音訊輸出: 支援流式音訊輸出
  • Any Model Can Talk」方法: Mini-Omni 可以將語音互動能力新增到其他模型中,為其他模型賦能(@PaperAgent

2、谷歌 DeepMind 展示 GenRM 技術:微調 LLMs 作為獎勵模型,提升生成式 AI 推理能力

谷歌 DeepMind 團隊於 8 月 27 日在 arxiv 上發表論文,介紹展示了 GenRM 生成式驗證器,創造性提出獎勵模型,從而提升生成式 AI 推理能力。

AI 行業內,目前提高大語言模型(LLMs)的主流做法就是 Best-of-N 模式,即由 LLM 生成的 N 個候選解決方案由驗證器進行排序,並選出最佳方案。這種基於 LLM 的驗證器通常被訓練成判別分類器來為解決方案打分,但它們無法利用預訓練 LLMs 的文字生成能力。

DeepMind 團隊為了克服這個侷限性,嘗試使用下一個 token 預測目標來訓練驗證器,同時進行驗證和解決方案生成。

DeepMind 團隊這種生成式驗證器(GenRM),相比較傳統驗證器,主要包含以下優點:

  • 無縫整合指令調整
  • 支援思維鏈推理
  • 透過多數投票利用額外的推理時間計算

在演算法和小學數學推理任務中使用基於 Gemma 的驗證器時,GenRM 的效能優於判別式驗證器和 LLM-as-a-Judge 驗證器,在使用 Best-of-N 解決問題的百分比上提高了 16-64%。

據 Google DeepMind 報導,GenRM 相對於分類獎勵模型的邊標誌著人工智慧獎勵系統的關鍵演化,特別是在其容量方面,以防止新模型學成到的欺詐行為。這一進步突出表明,迫切需要完善獎勵模型,使人工智慧輸出與社會責任標準保持一致。(@IT 之家)

3、谷歌 AI 推出 CardBench 評估框架:含 20 個真實資料庫,更全面評估基數估計模型

在資料驅動的時代,資料庫查詢的效能最佳化成為了企業提升競爭力的關鍵。近日,谷歌 AI 研究團隊最新推出了 CardBench 評估框架,這一創舉將為學習型基數估計(cardinality estimation,簡稱 CE)領域帶來前所未有的全面評估能力。

CardBench 評估框架旨在滿足系統對基數估計模型的全面評估需求。該框架不僅包含了 20 個不同真實資料庫中的數千次查詢,其規模和多樣性均遠超以往的任何基準,為資料庫查詢效能的最佳化提供了強有力的支援。

基數估計是最佳化關聯式資料庫查詢效能的關鍵,影響查詢最佳化器對執行計劃的選擇,不準確的估計會降低效能。現代資料庫系統中的基數估計技術存在不足,且因缺乏全面基準難以比較不同模型和評估通用性。

CardBench 支援基於例項、零點、微調三種模型設定,提供兩組訓練資料,包括 9125 個單表查詢和 8454 個二進位制連線查詢,確保了評估的全面性和準確性。

在實際測試中,微調圖神經網路(GNN)模型在二進位制連線查詢中展現出了卓越的效能。其 q-error 中位數僅為 1.32,第 95 百分位數也僅為 120,明顯優於零點模型。這一結果表明,即使在訓練資料有限的情況下,透過對預訓練模型進行微調也能大幅提升其效能。這為實際應用中訓練新模型成本過高的問題提供了切實可行的解決方案。(@IT 之家)

4、狨猴會用名字稱呼彼此

希伯來大學的研究人員發現,狨猴使用一種叫做「phee-calls」的特殊叫聲來識別和交流。到目前為止,這種語音標記他人的能力只在人類、海豚和大象身上發現過。研究人員記錄了成對狨猴之間的自然對話,以及猴子與計算機系統之間的互動。他們發現這些猴子用它們的「phee-call」來稱呼特定的個體。更有趣的是,狨猴可以分辨出什麼時候是針對它們的叫聲,而且當它是針對它們的時候,它們的反應更準確。研究還表明,狨猴群體中的家庭成員使用相似的聲音標籤來稱呼不同的個體,並使用相似的聲音特徵來編碼不同的名字,類似於人類使用的名字和方言。這種學習似乎甚至發生在沒有血緣關係的成年狨猴身上,這表明它們從家庭群體的其他成員那裡學習聲音標籤和方言。研究人員認為,這種聲音標籤可能已經進化到幫助狨猴在茂密的雨林棲息地保持聯絡,在那裡能見度通常有限。透過這些叫聲,它們可以維持社會紐帶,保持群體凝聚力。(@ 奇客 Solidot)

5、Cursor 開源平替:AI 程式設計工具 Melty 讓程式設計效率提升 10 倍

Melty 是一個開源的 AI 程式碼編輯器,由 Replicate 和 Netflix 等組織成員開發,得到 Y Combinator 的支援。Melty 能夠理解開發者從終端到 GitHub 的編碼過程,並協作編寫生產就緒的程式碼,有助於提升程式設計效率。

在短短 28 天的開發期間,Melty 就能夠自動編寫一半的程式碼,展現了其快速迭代和學習能力。Melty 不僅能夠提升程式設計效率,還能幫助開發者理解程式碼的每一個變化,就像有一個搭檔在旁邊指導。此外,Melty 還支援與編譯器、終端和偵錯程式等工具的無縫整合,以及專案管理工具如 Linear 和 GitHub。(@ 機器之心 SOTA 模型)

02 有態度的觀點

1、A16z 投資者 Joshua Lu:AI 正在顛覆影片遊戲行業,Discord 是未來

Joshua Lu,作為 Andreessen Horowitz 的合夥人,以及曾經的 Zynga 和 Blizzard Entertainment 的產品主管,以及 Meta 的產品管理總監,對於遊戲行業的變革有著深刻的理解。

他指出,AI 正在幫助初創公司以質量和創新的方式製作遊戲,甚至可能以較低的成本和人力資源實現高質量的遊戲產品。例如,Speedrun 加速器中有一半的公司正在使用 AI 技術,從創作故事到生成 3D 頭像等方面。

Lu 還強調了 Discord 的潛力,它允許開發者在平臺內建立應用程式,為遊戲的發現和分發提供了新的途徑。此外,Lu 提到了幾家在 Discord 上建立遊戲的初創公司,如 Clementine 和 Echo Chunk,後者籌集了 140 萬美元,用於開發使用 AI 生成無限關卡的遊戲。Lu 認為,隨著更多的遊戲製作和分發平臺的出現,Discord 有望成為下一個讓社交遊戲得以建立和分發的平臺。(@ 雷鋒網)

閱讀完整報告:

當生成模型足夠快時,實時互動影片遊戲就將到來——A16Z 最新報告:下一代皮克斯,AI 會如何融合電影和遊戲?

03 RTE Builder 專案推薦

小智正在尋找技術和投資人啦!

專案目標: 我們的目標是打造全球每一位獨立旅行者的強大 AI 助手 - 小智旅遊助手,透過提供個性化、陪伴式的旅行支援,引領 AI 旅遊領域,給個人旅行者提供更加溫馨、懂你的服務。

專案創意 - 已實現功能:

  1. 區別於其他旅遊 APP,提出全新的智慧旅遊⽅式,透過深度學習⽤⼾的偏好和⾏程需求,主動為⽤⼾提供精準推薦和實時預警服務,告別使用者自己透過搜尋做旅遊攻略的方式。

  2. 以語音互動的方式提供餐廳、旅遊地點推薦,天氣和風險地區預警。讓助手擬人化,成為旅行中小夥伴的一員,而非冰冷的機器。

  3. 還在擔心一個人旅遊拍照的問題?有了小智,從指導到修圖,一站式幫您拍出美圖。

We are looking for:

  • 技術人才 : 我們正在尋找具備前沿技術研發能力的優秀技術人才,尤其是在人工智慧、機器學習、大資料處理等領域有豐富經驗的專業人士。
  • 技術合作: 歡迎其他技術團隊與我們開展技術合作,共同開發新的功能模組,最佳化現有技術方案,或整合雙方的技術資源,以實現技術上的突破和創新。
  • 戰略投資方: 我們正在尋找有志於支援創新技術發展的戰略投資方,以推動專案的進一步發展和市場擴充。我們期待與能夠提供資金支援和戰略指導的投資者合作,共同推動專案成功。

更多資訊&聯絡方式:《小智正在尋找技術和投資人啦!We are looking for IT and investors!》

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章