實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報

RTE开发者社区發表於2024-09-30

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、實時語音互動中文基準首期測評出爐,4 大維度 15 項能力 7 款應用,GPT-4o 高階語音領跑,國內產品延時、打斷和場景應用表現出色



自 2024 年以來,AI 大模型技術和應用逐漸從文字擴充套件至更多模態。隨著 OpenAI 於今年 5 月份釋出 GPT-4o 多模態版本,掀起了國內外語音和視覺大模型的研發熱潮,OpenAI 也於近期正式開放 GPT-4o 高階語音能力。基於此,中文大模型測評基準 SuperCLUE 於近期對國內外實時語音大模型能力,進行了系統性量化測評。

1.在中文實時語音總體能力上,GPT-4o 高階語音有一定領先性,但在安全策略和幻覺問題等方面仍有較大提升空間。

GPT-4o 總體取得 74.31 分,領跑中文實時語音互動基準。並在說話風格、自然度、語言理解、記憶能力方面有較大領先性。不過 GPT-4o 高階語音在核心問題上仍有提升空間,如安全策略的高頻誤觸、幻覺問題等。

2.在中文語音環境下,國內頭部語音產品具有較好的競爭力。

在中文環境下,國內頭部實時語音產品如訊飛星火(實時語音)、海螺 AI(實時語音),在總體能力上與 GPT-4o 高階語音約 2 分差距,展現出較強語音綜合競爭力。

3.國內實時語音產品在響應延時、打斷能力和部分通用能力上存在一定優勢。

響應延時方面,訊飛星火有突出表現;打斷能力方面,通義表現突出,有超過 GPT-4o 高階語音的表現;整體通用能力方面,海螺 AI 和豆包具備較強的綜合能力,在記憶和推理方面表現不俗。

4.在中文場景應用方面,國內實時語音產品具有獨特優勢。

在實時語音場景應用領域,國內實時語音產品表現不俗。文小言在健康諮詢、購物諮詢等方面表現突出;智譜清言在情感諮詢方面有較好表現;通義在實時翻譯和教育輔導方面較為擅長;豆包則更擅長教育輔導。(@ SuperCLUE)

完整測評報告:
https://mp.weixin.qq.com/s/UM9aYhM-CO7-Lg6u6TeUzA

2、AMD 推出自家首款小語言 AI 模型「Llama-135m 」,主打「推測解碼」能力可減少 RAM 佔用

AMD 於昨日(9 月 29 日)在 Huggingface 平臺公佈了自家首款「小語言模型」AMD-Llama-135m,該模型具有推測解碼功能,擁有 6700 億個 token,採用 Apache 2.0 開源許可。

據介紹,這款模型主打「推測解碼」能力,其基本原理是使用小型草稿模型生成一組候選 token,然後由更大的目標模型進行驗證。這種方法允許每次前向傳遞生成多個 token,而不會影響效能,從而顯著減少 RAM 佔用,實現效率提升。

AMD 表示,這款模型在四個 AMD Instinct MI250 節點訓練了六天,其「程式設計專用版本」變體 AMD-Llama-135m-code 則額外耗費了四天時間進行微調。(@IT 之家)

3、Andrej Karpathy 強推谷歌 NotebookLM 的播客功能:堪比 ChatGPT 的推出

AI 大神 Andrej Karpathy 剛剛在社交媒體上興奮地宣佈:谷歌的 NotebookLM 的播客生成功能,可能會成為 AIGC 領域的下一個 ChatGPT 時刻!

「有可能 NotebookLM 播客生成功能正在觸及一種全新的、極具吸引力的大語言模型(LLM)產品形式。這讓我想起了 ChatGPT。也許我反應過度了!NotebookLM 非常強大,值得一試。」

NotebookLM 是谷歌推出的一款 AI 工具,它重新構想了 LLM 的互動方式,使用者可以上傳各種資料,然後透過查詢來引用這些資料,並檢視結果和引用資訊。NotebookLM 能根據任何上傳的內容自動生成一段雙人播客對話,對談雙方都是 A,而且能夠「播客化」一切文章。

Karpathy 如此看好播客這種形式,是因為他覺得播客這種形式解決了 LLM 的「聊天難」和「閱讀難」兩大「使用者體驗障礙」。Karpathy 認為,NotebookLM 的播客生成功能,可能預示著 AIGC 領域 UI/UX 的未來發展方向。

Karpathy 認為,LLM 的能力(包括 IQ、記憶/上下文長度、多模態等)已經遠遠超出了將其打包成產品的 UI/UX 水平。像 Code Interpreter、Claude Artifacts、Cursor/Replit、NotebookLM 等工具,都在探索新的 LLM 互動方式。但他預計(並期待)未來會出現更多不同於聊天的互動模式。(@AI 寒武紀)

4、美國取消 SB-1047 法案,OpenAI、谷歌、Meta 大難不死!

美國加州州長 Gavin Newsom 在今天凌晨正式否決——SB-1047 法案!

SB-1047 是美國加州在今年 2 月 7 日擬定的,全名叫《SB-1047 前沿 AI 大模型安全創新法案》,主要用於增強大模型安全、透明性、使用規範的條例。

但其中有非常多的不合理內容,例如,規定開發、訓練成本超過 1 億美元的大模型,比如 Meta 開源的 Llama-3 系列;谷歌的 Gemma 系列,一旦開源有人使用它做一些非法的事情,那麼源開發商也會受到非常嚴重的處罰。類似不合理的條款還有很多,讓人懷疑起草該法案的人員的意圖就是想徹底扼殺開源大模型以及大模型出口。所以,像 OpenAI、Meta、谷歌這些科技巨頭會成為 SB-1047 的最大受害者。

此外,美國加州這個地區在科技領域非常特殊,是谷歌、Meta、OpenAI、蘋果、英特爾、特斯拉總部的所在地,也有史丹佛、加州大學伯克利、加州理工、南加州大學等全球頂尖的計算機名校,算是全球科技創新中心之一。一旦這個法案執行起來,不僅是大公司受到重創,就連一些初創的小企業也會受到巨大影響。

根據美國加州官網公佈的否決訊息顯示,Gavin 州長表示 SB-1047 法案缺乏靈活性,像這種一刀切的方法會抑制在某些領域的創新和 AI 技術的發展,而且法案的規定可能難以實施,因為它們沒有為不同型別的 AI 模型、應用提供明確的指導。保護公眾免受 AI 技術真正威脅的最佳方法應該是更加細緻和有針對性的,而不是一刀切的解決方案。

在這個積極否決的過程中,AI 界泰斗 - 吳恩達、圖靈獎獲得者-Yann LeCun、史丹佛教授 - 李飛飛等發揮了重要作用。尤其是吳恩達,曾多次在公開場合呼籲科技人士抵制該法案。

對於全球開發者來說今天也是個重要的日子,可以繼續使用 Meta、谷歌等美國科技大廠開源的大模型啦。(@AIGC 開放者社群)

5、Nature 新研究:大模型越大,越愛胡說八道

Nature 刊文,研究發現大型 AI 模型如 GPT-4 等在升級後產生「腦霧」現象,誤答率超 60%。即使精確度提高,AI 在無法回答時仍傾向生成錯誤答案,使用者難以辨別真偽。專家建議 AI 應在人類難以解答問題時回應「不知道」以提高可靠性。(@ 智東西)

02 有態度的觀點

1、Open AI 創始成員:好的科技像一臺計算器

Tesla 前 AI 總監、OpenAI 創始團隊成員 Andrej Karpathy(安德烈·卡帕斯),最近發文批判當下的科技大多都變得複雜、依賴性過高,且對使用者不友好。

好的科技應該像計算器一樣,自給自足,操作簡單,可長期工作,無需更新,獲取使用者許可權、收集資料等等。

而當下的技術發展,似乎趨向於複雜和使用者不友好,這是否公司為了最大化股東價值而過度最佳化的結果。消費者和開發者應意識到技術發展的趨勢,並透過消費選擇和開發理念來推動技術迴歸簡單、直接的理想狀態。(@ APPSO)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章