微軟開源超強小模型 Phi-4,超 GPT-4o、可商用;HeyGen 整合 Sora 推全新數字人技術

RTE开发者社区發表於2025-01-09

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、微軟開源超強小模型 Phi-4,超 GPT-4o、可商用

今天凌晨,微軟研究院開源了目前最強小引數模型——phi-4。

去年 12 月 12 日,微軟首次展示了 phi-4,引數只有 140 億效能卻極強,在 GPQA 研究生水平、MATH 數學基準測試中,超過了 OpenAI 的 GPT-4o,也超過了同類頂級開源模型 Qwen 2.5 -14B 和 Llama-3.3-70B。

在美國數學競賽 AMC 的測試中 phi-4 更是達到了 91.8 分,超過了 Gemini Pro 1.5、GPT-4o、Claude 3.5 Sonnet、Qwen 2.5 等知名開閉源模型,甚至整體效能可以與 4050 億引數的 Llama-3.1 媲美。

現在,這款超強的小引數模型終於開源了,並且支援 MIT 許可證下商業用途。(@AIGC開放社群)

2、MediaTek 攜手意騰科技,於 CES 2025 展出多元 AI 語音方案

MediaTek 與意騰科技宣佈,將協同合作為車用、智慧家庭,以及智慧零售市場打造創新的 AI 語音解決方案,並於 CES 2025 展出。雙方合作將致力於提升使用者與汽車、智慧裝置的互動體驗,為全球使用者帶來更智慧、安全且直觀的生活方式。

此次合作將意騰科技先進的 AI 聲學前處理技術和 AI 科技無縫整合到 MediaTek 包括 3nm 製程的天璣汽車座艙平臺內,共同推出專為車內智慧語音控制而設計的創新解決方案,合作涵蓋了聲紋消噪(Voice Print Noise Reduction,VPNR)功能、指向性關鍵字偵測(Directional Keyword Detection,DOK)、喚醒詞(Keyword Spotting,KWS)、語音轉文字(Speech-to-Text ,STT)、文字轉語音(Text-to-Speech,TTS)功能等。

針對智慧家庭市場,雙方共同推出創新的「智慧家庭 AI Hub」。在 MediaTek 天璣 9400 旗艦移動平臺上,整合意騰科技的 AI 自然語音技術,以及平臺上原有生態夥伴的邊緣 AI 自動語音辨識模型(ASR)、小型語言模型(SLM)與多模態大語言模型(LMM),並結合可將傳統 AI 應用程式重構為具備自主性、推理能力與行動力的 MediaTek 天璣智慧體化 AI 引擎(Dimensity Agentic AI Engine),為智慧家庭情境帶來更為流暢且個性化的語音操作體驗。

雙方合作的另一亮點,是針對智慧零售場景打造的生成式 AI 解決方案。該方案將意騰科技的 AI 喚醒詞、語音轉文字(STT)、文字轉語音(TTS)技術與 MediaTek Genio 智慧物聯網平臺、MediaTek DaVinci 生成式 AI 服務平臺結合,為智慧零售裝置提供生動的虛擬角色介面和自然語言對話功能。(@ 聯發科技)

3、HeyGen 推全新數字人技術 整合 Sora,演技超越真人

近日,HeyGen 公司宣佈將其數字人模型與 OpenAI 的 Sora 模型實現整合,引發業界廣泛關注。這一技術突破意味著,我們即將迎來前所未有的、由人工智慧驅動的「會說話的虛擬形象」影片。這些虛擬形象不僅能夠無縫地融入 Sora 生成的場景中,更在某些方面超越了真人演員的表現,為影片創作帶來了無限的可能性。

長期以來,傳統影片拍攝依賴真人演員,不僅拍攝成本高昂,後期調整也十分繁瑣。如今,有了 HeyGen 和 Sora 的強強聯合,情況將發生巨大改變。新技術的優勢在於,使用者可以對虛擬形象的動作、表情和姿態進行精確微調,無需像傳統拍攝那樣反覆重拍。這種高度的靈活性,大大縮短了影片製作週期,也降低了成本。更令人興奮的是,這些影片的長度不再受限,使用者可以自由創作長篇作品。

與以往的數字克隆技術不同,HeyGen 推出的虛擬形象並非基於真實人物的模型,而是完全由人工智慧生成的全新虛擬人物。這意味著,這些虛擬形象擁有更強的可塑性和創造性,可以滿足各種不同型別的影片需求。

例如,在教育領域,可以建立各種不同年齡、背景的虛擬教師;在娛樂領域,可以打造風格各異的虛擬偶像。(@AIbase 基地)

02 有亮點的產品

1、3 到 5 秒即可同聲傳譯 40 餘種語言,時空壺推出 W4 Pro 實時翻譯耳機

AI 通訊科技公司時空壺宣佈在 CES 2025 展會期間推出最新的 W4 Pro 耳機,其內建雙向通話功能,支援跨語言實時翻譯,可讓使用者在語音、視訊通話中實現跨語言溝通能力,且不限通訊平臺。

官方表示,該產品可使使用者透過任何通訊平臺及傳統電話完成無縫雙向翻譯,且不會影響原始語音質量。其搭載 Babel OS,支援 40 餘種語言和 93 種口音,翻譯結果自然流暢,接近人類翻譯水平。

其搭載 HybridComm 技術,可在捕獲到原始語音之後的 3 到 5 秒之內完成翻譯,翻譯語音的音量相比原音稍大,以增強清晰度。此外,其提供多種模式如下:

  • 一對一模式:與他人共享耳機,進行面對面的實時翻譯。

  • 聽錄播放模式:透過應用錄製音訊並接收翻譯,之後可以回放。

  • 語音模式:將耳機中的翻譯語音透過手機揚聲器播放,適用於會議或演講。

W4 Pro 還具備 AI 驅動的實時摘要功能。在通話中,它能實時記錄並顯示所有語音和翻譯,並在通話結束後快速生成會議記錄。其支援透過浮窗實時顯示雙語轉錄結果,還可為特定行業或情景提供專屬翻譯。

其採用開放式設計,並具備降噪功能,充電 1 小時即可使用 12 小時。據介紹,該產品已於 1 月 7 日上市,售價為 449 美元(當前約 3294 元人民幣)。(@IT 之家)

2、新晉 AI 穿戴裝置 Omi:用腦機介面提升你的工作效率

CES 2025 上,位於舊金山的初創公司 Based Hardware 宣佈推出其最新的 AI 穿戴裝置 Omi,旨在透過創新的「腦機介面」技術來提升使用者的工作效率。這款裝置可佩戴在頸部,使用者只需說「嘿,Omi」便可啟用其 AI 助手。更有趣的是,Omi 還可以用醫用膠帶固定在使用者的頭部側面,透過腦機介面來判斷使用者是否在與其交談。

Omi 的創始人 Nik Shevchenko 最初在 Kickstarter 上以「Friend」命名此款裝置,但在另一家舊金山硬體公司推出同名產品並以 180 萬美元的價格購買了域名後,決定重新命名為 Omi。近年來,許多 AI 裝置紛紛問世,如 Rabbit 和 Humane 等,但這些裝置似乎都未能達到最初的市場期待。Shevchenko 此次希望 Omi 能作為手機的補充裝置,從而提升使用者的生產力。

Omi 的外觀設計小巧,呈圓形,價格為 89 美元,預計於 2025 年第二季度開始發貨。同時,開發者版本的 Omi 則以約 70 美元的價格即刻發貨。Based Hardware 表示,Omi 能夠回答問題、總結對話、建立待辦事項以及協助安排會議。該裝置會不斷監聽使用者的聲音,並使用 GPT-4o 進行處理,同時還能根據每位使用者的背景資訊提供個性化建議。

為了應對使用者對隱私的顧慮,Shevchenko 表示,Omi 基於開源平臺開發,使用者可以清楚地瞭解他們的資料去向,或選擇將資料儲存在本地。此外,該開源平臺也允許開發者自行構建應用或使用他們選擇的 AI 模型。目前,已有超過 250 款應用在 Omi 的應用商店上線。

Shevchenko 透露,Based Hardware 已籌集到約 70 萬美元,其中 15 萬美元用於製作 Omi 的宣傳影片,並表示未來將繼續尋找更多投資。他認為,使用者基礎是產品成功的核心驅動力,越多的人瞭解 Omi,產品就會越好。(@AIbase 基地)

3、「吹氣貓」FuFu 萌化登場,幫你快速吹涼美食

在 CES2025 的舞臺上,一款名為「吹氣貓」Nékojita FuFu 的創新產品吸引了眾多目光。這款由日本 Yukai Engineering 公司推出的可愛裝置,專為解決快速冷卻熱飲與食物而設計,其獨特的設計理念讓人眼前一亮。

把它掛在杯壁上,它體內的小風扇就會旋轉起來,從微微張開的貓貓嘴裡吹出,幫你把滾燙的熱水吹涼。(@ITBEAR 科技資訊)

03 有態度的觀點

1、李開復:只有大公司能繼續做超大模型

近日,零一萬物 CEO 李開復接受晚點對話的採訪,並表示只有大公司能繼續做超大模型。

李開復開篇回應了零一萬物調整,表示不會停止預訓練,但不再追逐超大模型。並且他認為追尋 AGI 需要充足甚至不計代價的彈藥儲備,而零一萬物現階段的最高優先順序是先鞏固拿到彈藥的實力。

面對行業和認知變化,李開復從商業的角度認為,只有大公司能繼續做超大模型。同時他引用前 OpenAI 首席科學家 Ilya 的觀點,表示網際網路資料資源就像化石燃料般正逐漸枯竭,雖然算力還在提升,但資料增長速度已見頂。同時,李開復提到,從信仰 Scaling Law 到懷疑 Scaling Law 只花了一年時間。他表示,現在一切都加快了。技術迭代加快了。

他還透露,商業化靈魂拷問時刻已經到來。因為要燒 Scaling Law 的創業公司會燒錢更多、更快,所以企業更應該做一個符合商業邏輯、對投資人負責,能確保活下來的商業模式。

此外,李開復還表達了他對「AI Agent」的看法。他表示,只要這個工作還沒被 AI 取代,便會一直做他所熱愛的工作。並且李開復提到將會花更多時間和他愛的人在一起,因為這一定是 AI 做不到的。(@APPSO)

2、馬斯克:現實世界中用於訓練 AI 模型的資料已經所剩無幾,合成資料是未來的解決方案

在週三晚間與 Stagwell 董事會主席馬克・佩恩的直播對話中,馬斯克表示:「我們現在基本上已經消耗掉了所有人類知識的積累…… 用於人工智慧訓練的資料。這個現象基本上是去年發生的。」

馬斯克此番言論與前 OpenAI 首席科學家伊利亞・蘇茨克弗(Ilya Sutskever)在去年 12 月的 NeurIPS 會議上的觀點相似。蘇茨克弗曾指出,AI 行業已經達到了所謂的「資料峰值」,並預測未來缺乏足夠的訓練資料,將迫使 AI 模型的開發方式發生改變。

馬斯克認為,合成資料是未來的解決方案。「補充現實世界資料的唯一途徑是透過合成資料,也就是讓 AI 自己生成訓練資料。AI 會進行自我評估,並透過這一自我學習的過程不斷最佳化自己。」

目前,許多科技公司,包括微軟、Meta、OpenAI 和 Anthropic 等,已經開始使用合成資料來訓練他們的主力 AI 模型。據 Gartner 估計,到 2024 年,用於人工智慧和資料分析專案的 60% 資料將是透過合成方式生成的。

使用合成資料的一個顯著優勢是降低成本。人工智慧初創公司 Writer 表示,其 Palmyra X 004 模型幾乎完全依賴合成資料進行開發,開發成本僅為 70 萬美元,而一個規模相似的 OpenAI 模型的開發成本大約為 460 萬美元。

然而,合成資料也存在一定的風險。研究表明,合成資料可能會導致模型效能下降,輸出結果不僅缺乏創新性,而且可能變得更加偏頗,最終嚴重影響其功能性。因為模型是透過自己生成合成資料進行訓練的,如果這些資料本身帶有偏見或侷限性,那麼最終模型的輸出也會受到這些因素的影響。(@IT 之家)

更多 Voice Agent 學習筆記:

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章