Google 類 Computer Use 專案:賈維斯計劃;位元組 PersonaTalk 影片配音框架能保持口型與風格同步

RTE开发者社区發表於2024-10-28

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的新聞 」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@鮑勃

01有話題的新聞

1、OpenAI 語音轉寫工具 Whisper 被曝存在重大缺陷:會憑空生成大段虛假內容

當地時間 27 日,據美聯社報導,超過十位軟體工程師、開發人員和學術研究人員稱,OpenAI 的語音轉寫工具 Whisper 存在一個重大缺陷:有時會憑空生成大段甚至整句虛假內容。這些生成的文字可能涉及種族言論、暴力措辭,甚至杜撰的醫療建議。

專家們認為,這一問題尤其令人擔憂,因為 Whisper 已被廣泛應用於全球多個行業,包括用於翻譯和轉錄訪談內容、生成常見消費科技文字及製作影片字幕。

更具風險的是,儘管 OpenAI 已提醒不應在「高風險領域」使用該工具,但一些醫療機構仍在匆忙採用基於 Whisper 的工具來記錄醫生與患者的諮詢記錄。

報導稱,研究人員和工程師在工作中經常遇到 Whisper 的「幻覺」現象,問題的整體規模尚不清楚。例如,密歇根大學一位研究員在研究公共會議時發現,在嘗試改進模型前,他所檢查的十份音訊轉錄中,八份含有虛構內容。

一位機器學習工程師透露,在最初分析的超過 100 小時 Whisper 轉錄中,他發現大約一半的內容存在「幻覺」現象。一位開發人員進一步指出,在他用 Whisper 生成的 26000 份轉錄中,幾乎每一份都帶有虛構內容。

即便是音質良好的簡短音訊樣本,也未能倖免於這些問題。電腦科學家們的最新研究表明,他們審查的 13000 多段清晰音訊片段中,有 187 段出現了「幻覺」現象。研究人員認為,這一趨勢意味著,在數百萬條錄音中將可能出現數以萬計的錯誤轉錄。OpenAI 的發言人表示,該公司持續研究如何減少幻覺,並且感謝研究者的發現,將會在模型更新中採納反饋。(@IT 之家)

2、Google 正在開發「賈維斯專案」,可將 Chrome 網頁任務自動化

據 The Information 報導,Google 正在開發「賈維斯專案」,該專案可以幫助使用者執行包括收集研究、購買產品或預訂航班在內的任務。

報導指出,該專案將由未來推出的 Google Gemini 驅動,並且僅適用於 Chrome 瀏覽器,該專案預計最早將在 12 月亮相。

「賈維斯專案」旨在透過擷取螢幕截圖後解析內容,同時自動點選按鈕或輸入文字,從而幫助使用者「自動化日常的網頁任務」。

不過,目前該工具在執行不同操作時,會有幾秒鐘的間隔時間。(@APPSO)

3、OpenAI 公佈新型 AI 文生圖方案「sCM」,號稱效率是傳統擴散模型 50 倍

OpenAI 上週公佈了一款名為 sCM(Continuous-Time Consistency Model)的新型 AI 文生圖方案。

與傳統的擴散模型相比,sCM 僅需兩個步驟即可生成高質量樣本,號稱能夠將文生圖效率提升約 50 倍,且生成的樣本質量能與「業界較強的擴散模型」相比較,為 AI 文生圖提供了新的方案。

目前業界通常使用擴散模型生成圖片及音影片,但傳統擴散模型的取樣過程通常緩慢,通常需要數十到數百個逐步降噪的過程才能生成高質量樣本(例如小夥伴們使用 SD「煉丹」繪圖就需要等待特別長的降噪時間),這使得相應模型效率低下,不適合商業化應用。

雖然目前業界已出現一些技術以加快擴散模型的速度,但無非只是利用複雜訓練過程「提純」模型,或透過降低輸出樣本質量下降以提升效率。

據介紹,sCM 訓練方法主要利用預訓練擴散模型蒸餾出來的知識直接打造模型,號稱能夠在縮短取樣時間的同時保持高質量樣本生成。

研究人員使用 ImageNet 512x512 資料集,利用 sCM 方法訓練模型,號稱能夠生成細節豐富且高質量的影像,展示其在高解析度生成方面的能力。儘管 sCM 只有兩個取樣步驟,生成樣本的質量仍接近業界「最佳的擴散模型」,號稱「差異不到 10%」。(@IT 之家)

4、PersonaTalk:位元組跳動開發出可精準給影片進行 AI 配音的模型,能保持口型同步、說話風格完美匹配

它透過一個基於注意力機制的兩階段系統,在生成與音訊同步的嘴部動作的同時,保持說話者獨特的個性特徵(如說話風格和麵部細節)。其目標是解決傳統配音技術難以同時確保口型同步和個性保留的挑戰。

它能做到:

聲音同步嘴型:當你給一個影片加上新的聲音時,PersonaTalk 可以讓人物的嘴巴動作和聲音完全匹配,和新的語音說話口型嘴唇一樣。

保留人物特點:在生成新影片時,它會盡量保留人物原本的說話方式、臉型、表情等細節,讓影片看起來更加真實和自然。

適用於不同人物:它不需要大量的資料來單獨訓練特定的人物,可以適應不同的人物和場景。(@小互 AI)

5、報導稱位元組跳動擬在歐洲設立 AI 研發中心

據 AI 科技評論獨家報導,位元組跳動準備在歐洲設立 AI 研發中心。有知情人士表示,位元組跳動目前已經開始尋找歐洲的 LLM 和 AI 方面技術大牛,積極招攬人才。

在今年 6 月,就有訊息指出,位元組跳動計劃投資約 100 億林吉特(21.3 億美元)在馬來西亞建立 AI 中心。另外,位元組跳動還打算額外投資 15 億林吉特擴大其在馬來西亞的資料中心設施。

而在 9 月初,也有媒體曾報導,位元組跳動董事會加入一位歐洲新董事,即法國富商、法國網際網路服務提供商和移動運營商伊利亞特電信集團的創始人和董事長澤維爾·尼爾,而這一舉措也讓位元組跳動擴充歐洲市場的意圖更為明顯。( @APPSO)

02有態度的觀點

1、OpenAI 首席產品官:未來 AI 將更加自主和非同步性,完全不同的產品構建方式,以前無法實現的產品現在變得可能了

OpenAI CPO(首席產品官) Kevin Weil 與 Anyscale 聯合創始人 Robert Nishihara 展開了一場對話。作為 OpenAI 的高管之一,Kevin 的對話涵蓋了多個層面,從技術架構到產品策略,再到更廣泛的社會影響。

Kevin Weil 深入講解了 o1 模型在複雜問題推理中的應用,特別是在面對多維度的程式設計問題時表現出色。同時,他強調了「防禦深度」概念,認為模型的安全性不僅體現在模型本身的設計上,也與具體的應用場景密切相關。

Kevin 強調了迭代部署的價值,即透過逐步擴大模型的使用範圍,讓其在真實世界中接受挑戰和反饋,從而提升模型的安全性與實用性。這種開放、透明的方式體現在 OpenAI 對外發布的模型規範上,並透過全球社群的反饋不斷最佳化。

他相信,隨著模型的智慧水平不斷提升,開發者有巨大的機會利用 AI 來解決特定行業的挑戰,特別是在專有資料和特定領域知識的應用上。(@有新 Newin)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章