ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、Gemini 2.0 引入多語言原生音訊輸出
Google Deepmind 展示了 Gemini 2.0 Flash Experimental 的原生音訊能力。影片中,Gemini 2.0 可以切換不同語言、使用不同語速、語調和情感說話;還支援使用 Prompt 的方式控制語音的輸出結果。(@ Google Deepmind@X)
2、谷歌文生圖 AI 模型 Imagen 3 再進化:多樣藝術風格、構圖更平衡
谷歌公司昨日(12 月 16 日)釋出博文,在釋出 Veo 2 影片生成模型之外,還增強了 Imagen 3 文生圖 AI 模型,為使用者帶來更多花樣的藝術風格。
谷歌表示 Imagen 3 是谷歌最強的文生圖模型,在最新版本中新增了現實主義、幻想主義、肖像畫等各種多樣化藝術風格,並更精準地基於提示詞轉換,可以生成更明亮、構圖更平衡的視覺效果。
谷歌 Imagen 3 還帶來了更豐富的紋理、進一步增強了圖片細節,在官方放出的測試中,超過了 OpenAI 的 DALL-E3 和 Flux 等主流模型。(@IT 之家)
02 有亮點的產品
1、月之暗面 Kimi 視覺思考版上線:基於 k1 模型打造 可識別圖片內容
月之暗面旗下人工智慧助手 Kimi 已上線新功能——視覺思考版。這一更新使得 Kimi 能夠對使用者傳送的圖片進行細緻的觀察和深入分析,揭示圖片背後的秘密。使用者現在可以直接向 Kimi 提出問題,利用其視覺思考能力來解答疑惑。
據報導,Kimi 的視覺思考功能基於 k1 視覺思考模型打造,這使得它能夠對圖片內容進行智慧分析,為使用者提供準確的反饋。
例如,使用者可以詢問 Kimi 關於他們即將拍攝的照片的地點,Kimi 將根據圖片內容給出猜測。此外,使用者還可以傳送截圖給 Kimi,請求幫助解答圖中的題目。這項新功能不僅增強了 Kimi 的互動能力,也為使用者提供了更加直觀和便捷的服務體驗。(@AIbase 基地)
2、ChatGPT AI 搜尋免費開放
北京時間今天凌晨,在 OpenAI 第八場釋出會上 ,宣佈向全球使用者免費開放 ChatGPT Search。
本次更新的主要亮點包括:
-
高階語音模式現已支援實時網頁搜尋,並支援多語言實時翻譯
- ChatGPT 能夠智慧判斷是否需要執行網頁搜尋,使用者也可透過點選 🌐 圖示手動觸發搜尋
搜尋結果中的影片可直接在 ChatGPT 聊天視窗中播放
支援將 ChatGPT Search 設為預設瀏覽器,提升網頁導航效率
移動端搜尋結果最佳化顯示,包含完整商業資訊描述和豐富視覺內容
iOS 裝置整合原生蘋果地圖體驗
根據投資公司 Evercore 在 9 月份對 1300 人進行的一項調查,有 8% 的受訪者選擇 ChatGPT 而不是 Google 作為他們首選的搜尋引擎,相比之下,6 月份這一比例僅為 1%。那時更專業的 ChatGPT Search 功能尚未正式釋出,便已經能從搜尋市場份額身上撕咬下一塊肉,收穫如此多的忠實擁躉。
上個月,外媒 The Information 披露,OpenAI 正在籌劃一款新產品,旨在將 AI 聊天機器人和網路瀏覽器相結合,為旅遊、餐飲和房地產等領域的網站提供搜尋功能。為了實現這一目標,OpenAI 甚至早些時候不惜重金挖來了 Google Chrome 團隊的創始成員之一 Ben Goodger。(@ APPSO)
3、蘋果將推出可摺疊 iPad
近日,據彭博社記者 Mark Gurman 最新一期報導,蘋果將在 2028 年推出可摺疊 iPad,同時還將帶來多款產品。
Gurman 提到,蘋果目前正在研發一款介於手機和平板電腦、膝上型電腦的新形態產品,此款產品將會是可摺疊的巨型 iPad,展開形態的尺寸可達兩臺 iPad Pro 並排的大小。
這款可摺疊 iPad 目前已在內部打磨多年,並計劃於 2028 年推向市場。Gurman 還猜測其將執行 iPadOS 的變體版版系統,甚至還將支援 MacOS 的軟體。
Gurman 還透露了兩款新產品,一款是新一代妙控滑鼠。Gurman 的報導指出,蘋果近幾個月來一直在對妙控滑鼠進行「全面改造」,使其設計「更適合現代」。Gurman 新的妙控滑鼠會使用時會更加舒適,並且還會解決充電口的問題。不過他也表示,新款的妙控滑鼠預計不會在「未來 12 到 18 個月」內釋出,這意味著新的妙控滑鼠至少要到 2026 年才能釋出。
另外一款產品則是新款 AirTag ,該產品將配備新的 UWB 超寬頻晶片,將定位範圍提升至現有 AirTag 的三倍。(@ APPSO)
4、Meta 智慧眼鏡 Ray-Ban Meta 升級:實時 AI 影片與翻譯功能
Meta 公司宣佈對其 Ray-Ban Meta 智慧眼鏡進行了一次重大的更新,推出了多項基於人工智慧的新功能,包括實時對話和語言翻譯。這些新功能現已向美國和加拿大的早期體驗使用者開放,使用者可以下載最新的韌體版本 v11。
這次更新中最引人注目的「實時 AI」功能首次在秋季的 Meta Connect 開發者大會上亮相。該功能允許使用者與 Meta 的 AI 助手進行持續對話,使用者無需每次都說「嘿,Meta」來喚醒助手,而是可以隨時打斷 AI 進行後續提問或換話題。此外,使用者還可以在佩戴眼鏡時實時詢問周圍的環境,例如詢問他們附近有什麼。
在智慧眼鏡的實時 AI 影片功能上,Meta 已成為市場上的佼佼者。這項技術可以讓使用者在觀看某物時詢問 Meta 的 AI 關於該物品的資訊,從而實現資訊的即時獲取。與之類似的技術,谷歌也計劃推出 AR 眼鏡,但尚未明確推出時間。
除了實時 AI 影片,韌體 v11 還引入了實時翻譯功能,支援英語與西班牙語、法語和義大利語之間的即時翻譯。當使用者與說這些語言的人交談時,眼鏡會透過開放耳揚聲器將對方的講話翻譯成英語,並在使用者的配對手機上顯示文字內容。
此外,這次更新還新增了 Shazam 支援功能,使用者只需說「嘿,Meta,識別這首歌」,眼鏡便會嘗試找到正在播放的音樂。儘管 Meta 對新功能充滿信心,但仍提醒使用者,實時 AI 和實時翻譯可能會出現錯誤,Meta 表示會不斷學習和改進,以提升使用者體驗。
值得一提的是,在去年 11 月,Meta 曾為 Ray-Ban Meta 推出過一次重大更新,向法國、義大利和西班牙的使用者推出了一些 AI 能力。根據埃西洛爾 - 魯克特(EssilorLuxottica)最近的報告,Ray-Ban Meta 在歐洲、中東和非洲的 60% 門店中成為了最暢銷的眼鏡品牌。(@AIbase 基地)
03 有態度的觀點
1、前谷歌 CEO 埃裡克 - 施密特:2-4 年後人工智慧可能開始自我完善,我們應該考慮拔掉插頭
埃裡克 - 施密特在 Axios 的採訪中提到說:「我們很快就能讓計算機自行執行,決定自己要做什麼。」
他說,當系統開始「自我完善 」時,可能就是考慮關閉系統的時候了。當被問及一個強大的系統是否能對抗關閉它的努力時,施密特對美國廣播公司的喬治 - 斯特凡諾普洛斯說:「從理論上講,我們最好有人能把手放在插頭上。」
他補充道:「這種智慧的力量......意味著每個人的口袋裡都將有一個相當於多面手的東西...我們只是不知道賦予每個人這種能力意味著什麼。」
許多業內專家都對匆忙開發生成式人工智慧的風險提出了警告。
施密特去年告訴《Axios》雜誌,根據一些專家的說法,計算機做出自己的決定可能只需要兩到四年的時間。
Axios 的邁克 - 艾倫(Mike Allen)和吉姆 - 範德海(Jim VandeHei)報導說,生成式人工智慧的支持者和反對者都一致認為,最強大的模型最快明年就能以博士生的智力執行。
施密特告訴美國廣播公司(ABC),在一兩年內,系統也許就能自己做研究了。(@ Chubby@X)
2、諾貝爾物理學獎得主:AI 的發展應迴歸生物學
近日,諾獎得主 Hinton 在 Vector's Remarkable 2024 中發表了最新演講,並認為 AI 得發展應迴歸生物學。
Hinton 在演講中提到,要實現硬體製造的高效率,AI 或許應該回歸生物學的本源,並利用現代基因工程技術將神經元轉化為人類所需的計算單元。Hinton 還認為使用模擬計算將擁有顯著的優勢,尤其是在追求低功耗方面。
Hinton 還在問答環節提到,不要開放大模型的原始碼。被問到 AI 是否發展速度過快時,Hinton 認為放慢發展速度既不現實,也不是關注的重點。大眾真正應該關注的是,如何確保 AI 的發展是仁慈且和諧共生的,以便人類能夠應對 AI 可能帶來的生存威脅。(@ APPSO)
更多 Voice Agent 學習筆記:
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服
語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場
下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》
Voice-first,閉關做一款語音產品的思考|社群來稿
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- Swift-語音識別、翻譯Swift
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 語音翻譯軟體怎麼用?怎麼實現語音的翻譯
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- OpenAI Java SDK——chatgpt-java-v1.0.3更新支援GPT-3.5-Turbo,支援語音轉文字,語音翻譯。OpenAIJavaChatGPT
- 實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報大模型開發者日報
- 微信小程式使用同聲傳譯實現語音識別功能微信小程式
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- 能聽會說,ChatGPT新增語音和影像功能ChatGPT
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 群邑:2021年語音搜尋報告
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 語音搜尋排名因素分析
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- Transformers.js實現瀏覽器內WebGPU加速的實時語音識別ORMJS瀏覽器WebGPU
- 快速實現語音轉文字,還自帶翻譯
- 基於環信實現實時視訊語音通話功能
- [譯] 使用 WFST 進行語音識別
- iOS音訊程式設計之實時語音通訊(對講機功能)iOS音訊程式設計
- StompJS+SpeechSynthesis實現前端訊息實時語音播報JS前端
- 實時語音如何過質量關?
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- python語音識別入門及實踐Python
- 語音識別模型模型
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 直播開發app,實時搜尋、搜尋引擎框APP
- ChatGPT 新增朗讀功能;微軟 Win11 滑鼠懸停自動開啟 Copilot 丨 RTE 開發者日報 Vol.158ChatGPT微軟開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 極速進化,光速轉錄,C++版本人工智慧實時語音轉文字(字幕/語音識別)Whisper.cpp實踐C++人工智慧
- 依圖在實時音視訊中語音處理的挑戰丨RTC Dev Meetupdev
- 30分鐘實現小程式語音識別
- Qt/C++音影片開發80-ffmpeg實現srt推拉流/實時性非常好/音影片同步/支援格式眾多QTC++