新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、新 Chrome 外掛可有效檢測 AI 生成的聲音
為了應對即將到來的 2024 年美國總統選舉,電話篩選和欺詐檢測公司 Hiya 推出了一款免費的 Chrome 外掛——Hiya Deepfake Voice Detector,該外掛能夠可靠地檢測出 AI 生成的聲音。這款外掛透過分析影片或音訊流中的聲音,給出一個真實性評分,幫助使用者判斷聲音是否為真實的或偽造的。
Hiya 表示,第三方測試者驗證了該外掛的準確性超過 99%,即使是對未訓練過的 AI 生成聲音也能有效檢測。此外,Hiya 聲稱該外掛能夠識別新合成模型生成的聲音,即使這些模型剛剛釋出。在外掛正式上線前,Engadget 進行了測試,發現其表現良好。例如,當播放一段疑似使用 AI 配音的關於布魯斯音樂家 Howlin’ Wolf 的 YouTube 影片時,外掛給出了 1/100 的真實性評分,確認該影片為深度偽造。
Hiya 總裁 Kush Parikh 在一份新聞稿中批評了社交媒體公司在防止深度偽造內容傳播方面的不足:「顯然,社交媒體網站有責任提醒使用者他們消費的內容有很大可能是 AI 深度偽造。目前,這一責任落在了個人身上,要求他們保持警惕並使用像我們的 Deepfake Voice Detector 這樣的工具來檢查可疑內容。這是一個很高的要求,因此我們很高興能夠提供一種解決方案,幫助使用者奪回一些主動權。」
該外掛只需幾秒鐘即可完成聲音檢測,並採用信用系統來防止伺服器過載。使用者每天將獲得 20 個信用點,這可能不足以覆蓋社交媒體上大量存在的操縱性 AI 內容。儘管如此,這款外掛仍為使用者提供了一個有效的工具,幫助他們在資訊氾濫的時代辨別真偽。(@ 龍劍秀南)
2、Canary Speech 推出用於臨床對話的 Canary Ambient 真實語音分析技術
Canary Speech 是語音生物標記技術領域的領先企業,該公司宣佈推出專為醫療保健和聯絡中心設計的 API 優先解決方案 Canary Ambient,該解決方案可在臨床對話中提供實時語音分析,公司稱這是「同類產品中的首創」。
Canary Ambient 是一款臨床決策支援軟體,能夠深入瞭解患者與醫生的對話,跟蹤語言模式,並對認知和行為健康狀況進行實時評估。
憑藉其先進的語音處理能力,Canary Ambient 可提供不顯眼且有影響力的見解,幫助組織識別潛在的高危人群,使其受益於進一步評估,改善整體溝通,提高患者護理效率 -- 所有這一切都在後臺監聽時完成。
Canary Speech 技術長 Nate Blaylock 表示:「Canary Speech 的臨床環境監聽技術可實現無縫聲樂生物標記分析,捕捉臨床醫生與患者之間的自然互動,無需額外提示。」這項技術有助於臨床醫生識別可能受益於額外篩查的患者。
Canary Speech 執行長 Henry O'Connell 表示:「我們很高興能夠提供 Canary Ambient,這將使更多機構能夠將聲樂生物標記分析無縫整合到現有工作流程中,從而改善患者護理和客戶服務。
Canary Ambient 的主要功能包括
- 實時流音訊處理:捕捉臨床環境和聯絡中心的實時音訊,在對話過程中實時計算並提供聲樂生物標記結果。
- 先進的日記化技術:採用「最先進 」的日記化技術,將聲音分成不同的通道,為相關雙方提供清晰準確的建議。
- 角色識別:自動識別和區分參與者,無論是臨床醫生和患者,還是代理和客戶,從而在整個對話過程中進行準確跟蹤。
- 語音生物標記分析:藉助 Canary Speech 的專有演算法,Canary Ambient 可分析語音中的健康症狀,如焦慮、抑鬱、MCI 和阿爾茨海默氏症。
- 可定製的分析:可靈活地將生物標記和脆弱性分析重點放在一個或兩個參與者身上,從而為不同的使用案例提供有針對性的見解。
- 與現有系統無縫整合:與醫療保健系統、人工智慧工具和聯絡中心平臺輕鬆整合,實現持續的資料流和實時反饋。
- 即時反饋和見解:為臨床醫生和客戶服務人員提供實時分析,透過即時的聲音資料洞察,幫助他們做出明智的決策。
- 安全、合規的資料處理:確保所有音訊資料符合 HIPAA、HITRUST 等隱私和安全標準以及呼叫中心的相關規定,保護敏感資訊的安全。(@ med-tech innovation news)
3、智源釋出原生多模態世界模型 Emu3,宣稱實現影像、文字、影片大一統
智源研究院於昨日(10 月 22 日)釋出原生多模態世界模型 Emu3。該模型只基於下一個 token 預測,無需擴散模型或組合方法,即可完成文字、影像、影片三種模態資料的理解和生成。官方宣稱實現影像、文字、影片大一統。
在影像生成任務中,基於人類偏好評測,Emu3 優於 SD-1.5 與 SDXL 模型。在視覺語言理解任務中,對於 12 項基準測試的平均得分,Emu3 優於 LlaVA-1.6。在影片生成任務中,對於 VBench 基準測試得分,Emu3 優於 OpenSora 1.2。
據介紹,Emu3 提供了一個強大的視覺 tokenizer,能夠將影片和影像轉換為離散 token。這些視覺離散 token 可以與文字 tokenizer 輸出的離散 token 一起送入模型中。與此同時,該模型輸出的離散 token 可以被轉換為文字、影像和影片,為 Any-to-Any 的任務提供了更加統一的研究正規化。
Emu3 研究結果證明,下一個 token 預測可以作為多模態模型的一個強大正規化,實現超越語言本身的大規模多模態學習,並在多模態任務中實現先進的效能。透過將複雜的多模態設計收斂到 token 本身,能在大規模訓練和推理中釋放巨大的潛力。(@ IT 之家)
4、馬斯克的 xAI 正式釋出 API,開發者可將 Grok 整合到其他應用
埃隆・馬斯克的人工智慧公司 xAI 正式釋出了其應用程式程式設計介面(API),允許開發者將 Grok 整合到其他應用程式中。
馬斯克在週一宣佈了這一訊息,並同時在 xAI 網站上釋出了該介面的連結。此前,馬斯克曾在 8 月份確認將為 Grok 提供 API 的計劃,並在 3 月份開源了該軟體的權重。
要檢視和使用 API,使用者必須登入他們的 xAI 賬戶,並在個人資料設定中選擇「Request Access」來申請訪問 PromptIDE 和 API。目前,API 只有一個模型,名為「grok-beta」,其價格為每百萬輸入 token 為 5 美元,每百萬輸出 token 為 15 美元。
API 還允許使用者執行函式呼叫,以便 Grok 可以與資料庫、搜尋引擎和其他外部軟體工具整合。
馬斯克和 xAI 於去年 11 月推出了 Grok,這是該公司的第一個產品,並在今年 4 月推出了 Grok 1.5V 視覺處理模型。
今年 5 月,一份檔案顯示,xAI 在 B 輪融資中籌集了 60 億美元,此前馬斯克在 1 月否認了有關該公司計劃籌集資金的報導。馬斯克還在 7 月談到了特斯拉可能投資 xAI,但他同時指出,這樣的投資需要獲得股東的批准。(@ IT 之家)
5、Meta 重啟面部識別技術,打擊「假名人」詐騙
據路透社報導,當地時間 22 日,在因隱私和監管壓力於三年前關閉 Facebook 的面部識別功能後,Meta 目前宣佈正在重新測試該服務,以打擊「名人誘餌」詐騙。
Meta 表示,將在試驗中招募約 50000 名公眾人物,自動將他們的 Facebook 頭像與疑似詐騙廣告中的影像進行比較。如果影像一致且 Meta 判斷該廣告是詐騙,將會阻止這些廣告。參與的名人將會收到通知,並且如果不願參與,可以選擇退出。
該試驗計劃從 12 月開始在全球範圍內推出,部分未獲得監管批准的地區如英國、歐盟、韓國以及美國得克薩斯州和伊利諾伊州將不包括在內。
Meta 內容政策副總裁 Monika Bickert 表示:「我們的目標是儘可能多地為這些公眾人物提供保護。他們可以選擇退出,但我們希望提供這樣一種保護,並使參與變得簡單。」(@ IT 之家)
02 有態度的觀點
1、小鵬自動駕駛負責人:端到端很容易方向錯了
10 月 21 日,晚點 LatePost 釋出了與小鵬自動駕駛負責人李力耘的訪談內容。
在訪談中,李力耘提到,端到端其實很容易走錯方向。他表示,小鵬和華為的方向大致一致的,是正確的。然而有的廠商會有一些混淆,把一些小模型透過規則的連線看成是端到端,或者直接做一個車上的端到端模型,其實這些都會有問題。
例如,藉助規則堆砌小模型來做端到端,會導致廠商仍然需要大量優秀的規則工程師;如果是在車上部署一個端到端模型,短期內可能見效很快,但是它長期的能力會受限於模型本身的大小。
隨後,李力耘也在微博轉發了該篇訪談內容,並表示「小鵬更著重長遠的發展,目前選擇的路線與 Open AI 是一致的,我們認為,未來的自動駕駛競爭在雲端,小鵬已經開始佈局雲端大模型。在雲端實現強化訓練後蒸餾到車上,極大提高了端到端的上限。不久後小鵬端到端表現將會有極大的提升,歡迎各位持續關注小鵬的 AI 智駕。」(@ APPSO)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- RTE 大會報名丨 重塑語音互動:音訊技術和 Voice AI,RTE2024 技術專場第一彈!音訊AI
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- Voicebot.ai:深度偽造技術和語音克隆之消費者情緒報告AI
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- AI 口語學習應用 Speak 新一輪融資估值 10 億美元;YouTube 推出 AI 多語言配音丨 RTE 開發者日報AI開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- ChatGPT 即將登陸 iPhone;史丹佛推出 AI 輔助全息成像技術丨 RTE 開發者日報 Vol.202ChatGPTiPhoneAI開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨RTE 開發者日報AI開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報AI開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- 語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場AI音訊
- 雲知聲推出音庫定製服務,“硬核”智慧語音技術再上新高
- PR語音轉字幕轉換外掛Speech to Text for Premiere Pro 2022REM
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 基於 Github API 的圖床 Chrome 外掛開發全紀錄GithubAPI圖床Chrome
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 李飛飛團隊多模態模型統一動作與語言;OpenAI 推出電話服務,讓更多人與 Chatgpt 對話丨 RTE 開發者日報模型OpenAIChatGPT開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- 它將AI與定向聲音技術相結合,防止更加私密的通話出現漏音AI
- 試用聲網Agora語音SDK感受 | 掘金技術徵文Go
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 用於前端開發的十種高效Chrome外掛前端Chrome
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- 這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢AI
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報