實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、實時語音互動中文基準首期測評出爐,4 大維度 15 項能力 7 款應用,GPT-4o 高階語音領跑,國內產品延時、打斷和場景應用表現出色
自 2024 年以來,AI 大模型技術和應用逐漸從文字擴充套件至更多模態。隨著 OpenAI 於今年 5 月份釋出 GPT-4o 多模態版本,掀起了國內外語音和視覺大模型的研發熱潮,OpenAI 也於近期正式開放 GPT-4o 高階語音能力。基於此,中文大模型測評基準 SuperCLUE 於近期對國內外實時語音大模型能力,進行了系統性量化測評。
1.在中文實時語音總體能力上,GPT-4o 高階語音有一定領先性,但在安全策略和幻覺問題等方面仍有較大提升空間。
GPT-4o 總體取得 74.31 分,領跑中文實時語音互動基準。並在說話風格、自然度、語言理解、記憶能力方面有較大領先性。不過 GPT-4o 高階語音在核心問題上仍有提升空間,如安全策略的高頻誤觸、幻覺問題等。
2.在中文語音環境下,國內頭部語音產品具有較好的競爭力。
在中文環境下,國內頭部實時語音產品如訊飛星火(實時語音)、海螺 AI(實時語音),在總體能力上與 GPT-4o 高階語音約 2 分差距,展現出較強語音綜合競爭力。
3.國內實時語音產品在響應延時、打斷能力和部分通用能力上存在一定優勢。
響應延時方面,訊飛星火有突出表現;打斷能力方面,通義表現突出,有超過 GPT-4o 高階語音的表現;整體通用能力方面,海螺 AI 和豆包具備較強的綜合能力,在記憶和推理方面表現不俗。
4.在中文場景應用方面,國內實時語音產品具有獨特優勢。
在實時語音場景應用領域,國內實時語音產品表現不俗。文小言在健康諮詢、購物諮詢等方面表現突出;智譜清言在情感諮詢方面有較好表現;通義在實時翻譯和教育輔導方面較為擅長;豆包則更擅長教育輔導。(@ SuperCLUE)
完整測評報告:
https://mp.weixin.qq.com/s/UM9aYhM-CO7-Lg6u6TeUzA
2、AMD 推出自家首款小語言 AI 模型「Llama-135m 」,主打「推測解碼」能力可減少 RAM 佔用
AMD 於昨日(9 月 29 日)在 Huggingface 平臺公佈了自家首款「小語言模型」AMD-Llama-135m,該模型具有推測解碼功能,擁有 6700 億個 token,採用 Apache 2.0 開源許可。
據介紹,這款模型主打「推測解碼」能力,其基本原理是使用小型草稿模型生成一組候選 token,然後由更大的目標模型進行驗證。這種方法允許每次前向傳遞生成多個 token,而不會影響效能,從而顯著減少 RAM 佔用,實現效率提升。
AMD 表示,這款模型在四個 AMD Instinct MI250 節點訓練了六天,其「程式設計專用版本」變體 AMD-Llama-135m-code 則額外耗費了四天時間進行微調。(@IT 之家)
3、Andrej Karpathy 強推谷歌 NotebookLM 的播客功能:堪比 ChatGPT 的推出
AI 大神 Andrej Karpathy 剛剛在社交媒體上興奮地宣佈:谷歌的 NotebookLM 的播客生成功能,可能會成為 AIGC 領域的下一個 ChatGPT 時刻!
「有可能 NotebookLM 播客生成功能正在觸及一種全新的、極具吸引力的大語言模型(LLM)產品形式。這讓我想起了 ChatGPT。也許我反應過度了!NotebookLM 非常強大,值得一試。」
NotebookLM 是谷歌推出的一款 AI 工具,它重新構想了 LLM 的互動方式,使用者可以上傳各種資料,然後透過查詢來引用這些資料,並檢視結果和引用資訊。NotebookLM 能根據任何上傳的內容自動生成一段雙人播客對話,對談雙方都是 A,而且能夠「播客化」一切文章。
Karpathy 如此看好播客這種形式,是因為他覺得播客這種形式解決了 LLM 的「聊天難」和「閱讀難」兩大「使用者體驗障礙」。Karpathy 認為,NotebookLM 的播客生成功能,可能預示著 AIGC 領域 UI/UX 的未來發展方向。
Karpathy 認為,LLM 的能力(包括 IQ、記憶/上下文長度、多模態等)已經遠遠超出了將其打包成產品的 UI/UX 水平。像 Code Interpreter、Claude Artifacts、Cursor/Replit、NotebookLM 等工具,都在探索新的 LLM 互動方式。但他預計(並期待)未來會出現更多不同於聊天的互動模式。(@AI 寒武紀)
4、美國取消 SB-1047 法案,OpenAI、谷歌、Meta 大難不死!
美國加州州長 Gavin Newsom 在今天凌晨正式否決——SB-1047 法案!
SB-1047 是美國加州在今年 2 月 7 日擬定的,全名叫《SB-1047 前沿 AI 大模型安全創新法案》,主要用於增強大模型安全、透明性、使用規範的條例。
但其中有非常多的不合理內容,例如,規定開發、訓練成本超過 1 億美元的大模型,比如 Meta 開源的 Llama-3 系列;谷歌的 Gemma 系列,一旦開源有人使用它做一些非法的事情,那麼源開發商也會受到非常嚴重的處罰。類似不合理的條款還有很多,讓人懷疑起草該法案的人員的意圖就是想徹底扼殺開源大模型以及大模型出口。所以,像 OpenAI、Meta、谷歌這些科技巨頭會成為 SB-1047 的最大受害者。
此外,美國加州這個地區在科技領域非常特殊,是谷歌、Meta、OpenAI、蘋果、英特爾、特斯拉總部的所在地,也有史丹佛、加州大學伯克利、加州理工、南加州大學等全球頂尖的計算機名校,算是全球科技創新中心之一。一旦這個法案執行起來,不僅是大公司受到重創,就連一些初創的小企業也會受到巨大影響。
根據美國加州官網公佈的否決訊息顯示,Gavin 州長表示 SB-1047 法案缺乏靈活性,像這種一刀切的方法會抑制在某些領域的創新和 AI 技術的發展,而且法案的規定可能難以實施,因為它們沒有為不同型別的 AI 模型、應用提供明確的指導。保護公眾免受 AI 技術真正威脅的最佳方法應該是更加細緻和有針對性的,而不是一刀切的解決方案。
在這個積極否決的過程中,AI 界泰斗 - 吳恩達、圖靈獎獲得者-Yann LeCun、史丹佛教授 - 李飛飛等發揮了重要作用。尤其是吳恩達,曾多次在公開場合呼籲科技人士抵制該法案。
對於全球開發者來說今天也是個重要的日子,可以繼續使用 Meta、谷歌等美國科技大廠開源的大模型啦。(@AIGC 開放者社群)
5、Nature 新研究:大模型越大,越愛胡說八道
Nature 刊文,研究發現大型 AI 模型如 GPT-4 等在升級後產生「腦霧」現象,誤答率超 60%。即使精確度提高,AI 在無法回答時仍傾向生成錯誤答案,使用者難以辨別真偽。專家建議 AI 應在人類難以解答問題時回應「不知道」以提高可靠性。(@ 智東西)
02 有態度的觀點
1、Open AI 創始成員:好的科技像一臺計算器
Tesla 前 AI 總監、OpenAI 創始團隊成員 Andrej Karpathy(安德烈·卡帕斯),最近發文批判當下的科技大多都變得複雜、依賴性過高,且對使用者不友好。
好的科技應該像計算器一樣,自給自足,操作簡單,可長期工作,無需更新,獲取使用者許可權、收集資料等等。
而當下的技術發展,似乎趨向於複雜和使用者不友好,這是否公司為了最大化股東價值而過度最佳化的結果。消費者和開發者應意識到技術發展的趨勢,並透過消費選擇和開發理念來推動技術迴歸簡單、直接的理想狀態。(@ APPSO)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 源1.0大模型登頂中文語言能力評測基準CUGE榜首大模型
- 最新中文大模型測評出爐,騰訊混元居卓越領導者象限大模型
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- 活動報名丨實時互動 AI 開發者年度聚會!RTE Open Day@RTE2024,10.25/26 北京AI
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- RTE 大會報名丨 重塑語音互動:音訊技術和 Voice AI,RTE2024 技術專場第一彈!音訊AI
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 華為否認大模型演示造假;美國億萬富翁宣佈競購 TikTok 丨 RTE 開發者日報 Vol.206大模型開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- MiniMax、商湯科技、面壁智慧、西湖心辰、聲網都來了!RTE 大會「實時互動和大模型」專場開啟報名大模型
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- 實時多模態 AI 的 N 種新可能丨實時互動和大模型專場 @RTE2024 回顧AI大模型
- 實時多模態 AI 的 N 種新可能丨實時互動和大模型專場@RTE2024回顧AI大模型
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- 亞馬遜雲集齊 Claude 3 全家桶;世界數字技術院釋出大模型安全國際標準丨 RTE 開發者日報 Vol.187亞馬遜大模型開發者日報
- 特斯拉全自動駕駛能力(FSD)或與百度合作;小紅書內測自研大模型丨 RTE 開發者日報 Vol.196自動駕駛大模型開發者日報
- 英偉達市值超越蘋果;ChatGPT、Perplexity、Claude 同時大崩潰丨 RTE 開發者日報 Vol.220蘋果ChatGPT開發者日報
- 大廠林立,思必馳推可定製開發語音互動技術!
- 釋出會後蘋果股價創歷史新高;商湯 Embedding 模型拿下 SOTA 丨 RTE 開發者日報 Vol.223蘋果模型開發者日報
- 全球140+大模型全方位評測結果出爐,智源評測體系釋出大模型
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 零一萬物 Yi-Lightning:超越 GPT-4o 衝擊全球榜單;阿里國際 Marco 翻譯大模型釋出丨 RTE 開發者日報GPT阿里大模型開發者日報
- 最強國產 Sora 大模型 Vidu 釋出,長度可達 16 秒;微信檔案 3 小時內可撤回丨 RTE 開發者日報 Vol.194Sora大模型開發者日報
- OpenAI 收購桌面實時協作公司 Multi;iOS 18 開放 iPhone 映象測試丨 RTE 開發者日報 Vol.231OpenAIiOSiPhone開發者日報