ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報

RTE开发者社区發表於2024-12-17

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、Gemini 2.0 引入多語言原生音訊輸出

Google Deepmind 展示了 Gemini 2.0 Flash Experimental 的原生音訊能力。影片中,Gemini 2.0 可以切換不同語言、使用不同語速、語調和情感說話;還支援使用 Prompt 的方式控制語音的輸出結果。(@ Google Deepmind@X)

2、谷歌文生圖 AI 模型 Imagen 3 再進化:多樣藝術風格、構圖更平衡

谷歌公司昨日(12 月 16 日)釋出博文,在釋出 Veo 2 影片生成模型之外,還增強了 Imagen 3 文生圖 AI 模型,為使用者帶來更多花樣的藝術風格。

谷歌表示 Imagen 3 是谷歌最強的文生圖模型,在最新版本中新增了現實主義、幻想主義、肖像畫等各種多樣化藝術風格,並更精準地基於提示詞轉換,可以生成更明亮、構圖更平衡的視覺效果。

谷歌 Imagen 3 還帶來了更豐富的紋理、進一步增強了圖片細節,在官方放出的測試中,超過了 OpenAI 的 DALL-E3 和 Flux 等主流模型。(@IT 之家)

02 有亮點的產品

1、月之暗面 Kimi 視覺思考版上線:基於 k1 模型打造 可識別圖片內容

月之暗面旗下人工智慧助手 Kimi 已上線新功能——視覺思考版。這一更新使得 Kimi 能夠對使用者傳送的圖片進行細緻的觀察和深入分析,揭示圖片背後的秘密。使用者現在可以直接向 Kimi 提出問題,利用其視覺思考能力來解答疑惑。

據報導,Kimi 的視覺思考功能基於 k1 視覺思考模型打造,這使得它能夠對圖片內容進行智慧分析,為使用者提供準確的反饋。

例如,使用者可以詢問 Kimi 關於他們即將拍攝的照片的地點,Kimi 將根據圖片內容給出猜測。此外,使用者還可以傳送截圖給 Kimi,請求幫助解答圖中的題目。這項新功能不僅增強了 Kimi 的互動能力,也為使用者提供了更加直觀和便捷的服務體驗。(@AIbase 基地)

2、ChatGPT AI 搜尋免費開放

北京時間今天凌晨,在 OpenAI 第八場釋出會上 ,宣佈向全球使用者免費開放 ChatGPT Search。

本次更新的主要亮點包括:

  • 高階語音模式現已支援實時網頁搜尋,並支援多語言實時翻譯

    • ChatGPT 能夠智慧判斷是否需要執行網頁搜尋,使用者也可透過點選 🌐 圖示手動觸發搜尋
  • 搜尋結果中的影片可直接在 ChatGPT 聊天視窗中播放

  • 支援將 ChatGPT Search 設為預設瀏覽器,提升網頁導航效率

  • 移動端搜尋結果最佳化顯示,包含完整商業資訊描述和豐富視覺內容

  • iOS 裝置整合原生蘋果地圖體驗

根據投資公司 Evercore 在 9 月份對 1300 人進行的一項調查,有 8% 的受訪者選擇 ChatGPT 而不是 Google 作為他們首選的搜尋引擎,相比之下,6 月份這一比例僅為 1%。那時更專業的 ChatGPT Search 功能尚未正式釋出,便已經能從搜尋市場份額身上撕咬下一塊肉,收穫如此多的忠實擁躉。

上個月,外媒 The Information 披露,OpenAI 正在籌劃一款新產品,旨在將 AI 聊天機器人和網路瀏覽器相結合,為旅遊、餐飲和房地產等領域的網站提供搜尋功能。為了實現這一目標,OpenAI 甚至早些時候不惜重金挖來了 Google Chrome 團隊的創始成員之一 Ben Goodger。(@ APPSO)

3、蘋果將推出可摺疊 iPad

近日,據彭博社記者 Mark Gurman 最新一期報導,蘋果將在 2028 年推出可摺疊 iPad,同時還將帶來多款產品。

Gurman 提到,蘋果目前正在研發一款介於手機和平板電腦、膝上型電腦的新形態產品,此款產品將會是可摺疊的巨型 iPad,展開形態的尺寸可達兩臺 iPad Pro 並排的大小。

這款可摺疊 iPad 目前已在內部打磨多年,並計劃於 2028 年推向市場。Gurman 還猜測其將執行 iPadOS 的變體版版系統,甚至還將支援 MacOS 的軟體。

Gurman 還透露了兩款新產品,一款是新一代妙控滑鼠。Gurman 的報導指出,蘋果近幾個月來一直在對妙控滑鼠進行「全面改造」,使其設計「更適合現代」。Gurman 新的妙控滑鼠會使用時會更加舒適,並且還會解決充電口的問題。不過他也表示,新款的妙控滑鼠預計不會在「未來 12 到 18 個月」內釋出,這意味著新的妙控滑鼠至少要到 2026 年才能釋出。

另外一款產品則是新款 AirTag ,該產品將配備新的 UWB 超寬頻晶片,將定位範圍提升至現有 AirTag 的三倍。(@ APPSO)

4、Meta 智慧眼鏡 Ray-Ban Meta 升級:實時 AI 影片與翻譯功能

Meta 公司宣佈對其 Ray-Ban Meta 智慧眼鏡進行了一次重大的更新,推出了多項基於人工智慧的新功能,包括實時對話和語言翻譯。這些新功能現已向美國和加拿大的早期體驗使用者開放,使用者可以下載最新的韌體版本 v11。

這次更新中最引人注目的「實時 AI」功能首次在秋季的 Meta Connect 開發者大會上亮相。該功能允許使用者與 Meta 的 AI 助手進行持續對話,使用者無需每次都說「嘿,Meta」來喚醒助手,而是可以隨時打斷 AI 進行後續提問或換話題。此外,使用者還可以在佩戴眼鏡時實時詢問周圍的環境,例如詢問他們附近有什麼。

在智慧眼鏡的實時 AI 影片功能上,Meta 已成為市場上的佼佼者。這項技術可以讓使用者在觀看某物時詢問 Meta 的 AI 關於該物品的資訊,從而實現資訊的即時獲取。與之類似的技術,谷歌也計劃推出 AR 眼鏡,但尚未明確推出時間。

除了實時 AI 影片,韌體 v11 還引入了實時翻譯功能,支援英語與西班牙語、法語和義大利語之間的即時翻譯。當使用者與說這些語言的人交談時,眼鏡會透過開放耳揚聲器將對方的講話翻譯成英語,並在使用者的配對手機上顯示文字內容。

此外,這次更新還新增了 Shazam 支援功能,使用者只需說「嘿,Meta,識別這首歌」,眼鏡便會嘗試找到正在播放的音樂。儘管 Meta 對新功能充滿信心,但仍提醒使用者,實時 AI 和實時翻譯可能會出現錯誤,Meta 表示會不斷學習和改進,以提升使用者體驗。

值得一提的是,在去年 11 月,Meta 曾為 Ray-Ban Meta 推出過一次重大更新,向法國、義大利和西班牙的使用者推出了一些 AI 能力。根據埃西洛爾 - 魯克特(EssilorLuxottica)最近的報告,Ray-Ban Meta 在歐洲、中東和非洲的 60% 門店中成為了最暢銷的眼鏡品牌。(@AIbase 基地)

03 有態度的觀點

1、前谷歌 CEO 埃裡克 - 施密特:2-4 年後人工智慧可能開始自我完善,我們應該考慮拔掉插頭

埃裡克 - 施密特在 Axios 的採訪中提到說:「我們很快就能讓計算機自行執行,決定自己要做什麼。」

他說,當系統開始「自我完善 」時,可能就是考慮關閉系統的時候了。當被問及一個強大的系統是否能對抗關閉它的努力時,施密特對美國廣播公司的喬治 - 斯特凡諾普洛斯說:「從理論上講,我們最好有人能把手放在插頭上。」

他補充道:「這種智慧的力量......意味著每個人的口袋裡都將有一個相當於多面手的東西...我們只是不知道賦予每個人這種能力意味著什麼。」

許多業內專家都對匆忙開發生成式人工智慧的風險提出了警告。

施密特去年告訴《Axios》雜誌,根據一些專家的說法,計算機做出自己的決定可能只需要兩到四年的時間。

Axios 的邁克 - 艾倫(Mike Allen)和吉姆 - 範德海(Jim VandeHei)報導說,生成式人工智慧的支持者和反對者都一致認為,最強大的模型最快明年就能以博士生的智力執行。

施密特告訴美國廣播公司(ABC),在一兩年內,系統也許就能自己做研究了。(@ Chubby@X)

2、諾貝爾物理學獎得主:AI 的發展應迴歸生物學

近日,諾獎得主 Hinton 在 Vector's Remarkable 2024 中發表了最新演講,並認為 AI 得發展應迴歸生物學。

Hinton 在演講中提到,要實現硬體製造的高效率,AI 或許應該回歸生物學的本源,並利用現代基因工程技術將神經元轉化為人類所需的計算單元。Hinton 還認為使用模擬計算將擁有顯著的優勢,尤其是在追求低功耗方面。

Hinton 還在問答環節提到,不要開放大模型的原始碼。被問到 AI 是否發展速度過快時,Hinton 認為放慢發展速度既不現實,也不是關注的重點。大眾真正應該關注的是,如何確保 AI 的發展是仁慈且和諧共生的,以便人類能夠應對 AI 可能帶來的生存威脅。(@ APPSO)

更多 Voice Agent 學習筆記:

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first,閉關做一款語音產品的思考|社群來稿

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章