Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、AI 熱潮推動!Python 超越 JavaScript,成 GitHub 最受歡迎程式語言
在最新的開發者平臺 GitHub 的報告中,Python 已經成功超越 JavaScript,成為使用最廣泛的程式語言。這一變化主要源於當前持續火熱的生成式人工智慧(AI)熱潮。
Python 在機器學習、資料科學和科學計算領域的日益重要性,推動了其在開源社群的崛起。GitHub 指出,Python 的流行與越來越多的 STEM(科學、技術、工程和數學)開發者加入開源社群密切相關。
儘管有人擔心人工智慧驅動的編碼可能導致開源專案中的程式碼質量下降,GitHub 卻表示沒有看到 AI 導致低質量貢獻的跡象。實際上,生成式 AI 專案的貢獻在 2024 年增長了 59%,而 AI 專案的總數幾乎翻了一番,增長率達到了 98%。
雖然美國的開發者在 AI 貢獻方面仍然處於領先地位,但來自印度、德國、日本和新加坡的開發者在整體活動方面表現出更高的活躍度。
與此同時,GitHub 觀察到開發者越來越多地將 AI 模型整合到他們的工具鏈中,並且在向更小、更高效的模型轉變,這些模型能夠在本地執行,並嵌入到移動應用中。2024 年增長最快的開源 AI 專案是「ollama/ollama」,這是一款用於在本地計算機上執行語言模型的工具。
除了對小型開源模型的關注,GitHub 還指出,開發者對影像生成和 AI 代理進行過程自動化表現出強烈的興趣,他們正在開發更多針對特定用途的 AI 工具,例如用於學術研究的工具。在比較最受歡迎的開源 AI 專案時,雖然一些頂級專案保持穩定,但像 ollama 和 ComfyUI 這樣的新專案在 2024 年日益重要。
在其 2024 年宇宙大會上,GitHub 宣佈了新的語言模型整合,包括 Anthropic 的 Claude3.5Sonnet、Google 的 Gemini1.5Pro,以及 OpenAI 的 o1-preview 和 o1-mini 模型。作為微軟旗下的 GitHub 正在與其合作伙伴 OpenAI 在開發者工具市場展開競爭,這一擴充套件標誌著戰略的轉變。其他程式設計工具如 Cursor 也透過利用 Anthropic 的 Sonnet 模型獲得了越來越多的開發者青睞。(@AIbase 基地)
2、Claude 3.5 Sonnet 模型增加 PDF 檔案處理功能 可分析文件影像、圖表和表格
近日,人工智慧公司 Anthropic 宣佈,在其 Claude 3.5 Sonnet 模型中增加了 PDF 檔案處理的功能,目前該功能已進入公共測試階段。使用者現在可以使用該模型分析 PDF 文件中的文字和視覺元素,包括影像、圖表和表格等,適用於金融報告、法律檔案以及文件翻譯等多種場景。
Claude 3.5 Sonnet 的 PDF 處理過程分為三個步驟。首先,系統會從文件中提取文字內容。接著,每一頁文件會被轉換為影像,以便進行更深入的分析。這樣一來,使用者不僅可以獲取文字資訊,還能夠洞悉 PDF 檔案中的視覺資訊。
值得一提的是,Claude 的 PDF 功能還可以與其他功能結合使用,比如提取特定資訊並將其用作工具輸入。需要注意的是,上傳的檔案必須小於 32MB,且頁面數量不得超過 100 頁。該系統目前不支援加密或密碼保護的文件。(@AIbase 基地)
3、迪士尼成立新 AI 部門,探索人工智慧、混合現實等新型技術的潛力
據路透社報導,華特迪士尼正在組建一個新的小組,以協調公司對人工智慧和混合現實等新興技術的使用,這家媒體巨頭正積極探索 AI 等技術在電影、電視和主題公園等業務中的潛力。
根據路透社獲取的電子郵件,新成立的「技術賦能辦公室」(Office of Technology Enablement)將由傑米・沃里斯(Jamie Voris)領導,他是迪士尼電影製片廠的技術長,此前主導了迪士尼為蘋果 Vision Pro 混合現實裝置開發應用的工作。
迪士尼娛樂聯合主席艾倫・伯格曼(Alan Bergman)在郵件中寫道:「人工智慧和 XR(擴充套件現實)技術發展迅速,將對未來的消費者體驗、創意專案以及我們的業務產生深遠影響。因此,迪士尼必須抓住這一激動人心的機遇,同時審慎管理其中的潛在風險。」
此前報導,迪士尼集團去年成立了一個特別工作組,致力於研究人工智慧以及如何將其應用於整個集團,儘管好萊塢的編劇和演員們正努力抵制這項技術的入侵。
迪士尼去年就尋求在內部開發人工智慧應用程式,並與初創公司建立合作伙伴關係。(@IT 之家)
4、蘋果收購影像編輯應用 Pixelmator
iOS 和 macOS 平臺的影像編輯應用 Pixelmator 釋出公告,宣佈團隊將加入蘋果公司。
公告顯示,Pixelmator 已經簽署了一份被蘋果收購的協議,目前正在等待監管部門的批准。就目前而言,Pixelmator Pro 以及 iOS 版本的 Pixelmator 應用不會有任何重大變化,但 Pixelmator 預告接下來會有「令人興奮」的更新。
預計在收購後,Pixelmator 會和 Final Cut 和 Logic Pro 等專業應用一樣,保留獨立的應用形式,並進行單獨售賣,而不會像天氣應用 Dark Sky 般在蘋果收購後被關閉,相關技術整合入蘋果自帶天氣應用。
Pixelmator 在 iOS 平臺上售價 68 元,而進階版的 Pixelmator Pro 在 Mac App Store 上售價 328 元,這款應用的定位類似 Adobe 的 Photoshop,不過更強調易用性和高效能(@APPSO)
5、告別隨機生成!Runway 推出高階攝像機控制 像導演一樣掌控鏡頭
知名 AI 影片生成平臺 Runway 近日宣佈推出全新功能——高階攝像機控制。該功能允許使用者像操控真實攝影機一樣,精準控制虛擬場景中的鏡頭移動,為 AI 影片創作帶來前所未有的靈活性和掌控力。
使用者可以自定義鏡頭移動的方向和力度,實現水平移動、環繞拍攝、位置探索、迴圈拍攝、快速縮放和慢速滑動等多種效果。結合速度變化的迴圈拍攝功能尤其適合生成吸睛的視覺迴圈或過渡,極大擴充了創作潛力。快速縮放則可以像電影鏡頭一樣深入場景,而慢速滑動則能讓鏡頭平穩地滑過場景,突出細節或營造懸念。
Runway 表示,此次更新旨在改變使用者對數位相機工作的看法,實現無縫過渡和增強場景構圖。高階攝像機控制功能現已在 Runway 平臺上線,使用者可以透過 Gen-3Alpha Turbo 模型體驗。
這意味著,使用者在使用文字提示、影像或影片生成新影片時,不再侷限於隨機生成的結果。透過高階攝像機控制,使用者可以精確控制場景和主題的呈現方式,將觀眾帶入一個栩栩如生、看似 3D 的世界,就像置身於真實的電影場景之中(@AIbase 基地)
6、Fish Agent:多語言 Voice-to-Voice 開源語音模型
Fish Agent V0.1 3B 是 FishAudio 的一個突破性的 Voice-to-Voice 模型, 最大特點是不需要傳統的語義編碼器/解碼器(如 Whisper 和 CosyVoice)。
基於 Qwen-2.5-3B-Instruct 模型繼續預訓練, 使用了 2000 億語音和文字 tokens。
模型能力:
主要功能:語音到語音轉換、文字到語音合成
能準確捕捉和生成環境音訊資訊
支援 8 種語言的音訊處理
官方 GitHub 介紹的特性:
零樣本 & 小樣本 TTS:輸入 10 到 30 秒的聲音樣本即可生成高質量的 TTS 輸出。
多語言 & 跨語言支援:只需複製並貼上多語言文字到輸入框中,無需擔心語言問題。目前支援英語、日語、韓語、中文、法語、德語、阿拉伯語和西班牙語。
無音素依賴:模型具備強大的泛化能力,不依賴音素進行 TTS,能夠處理任何文字表示的語言。
高準確率:在 5 分鐘的英文文字上,達到了約 2% 的 CER(字元錯誤率)和 WER(詞錯誤率)。
快速:透過 fish-tech 加速,在 Nvidia RTX 4060 筆記本上的實時因子約為 1:5,在 Nvidia RTX 4090 上約為 1:15。
WebUI 推理:提供易於使用的基於 Gradio 的網頁使用者介面,相容 Chrome、Firefox、Edge 等瀏覽器。
GUI 推理:提供 PyQt6 圖形介面,與 API 伺服器無縫協作。支援 Linux、Windows 和 macOS。檢視 GUI。
易於部署:輕鬆設定推理伺服器,原生支援 Linux、Windows 和 macOS,最大程度減少速度損失。
模型地址:https://huggingface.co/fishaudio/fish-agent-v0.1-3b@user7@X&Fish( Agent GitHub)
02 有態度的觀點
1、知乎 CEO:人是 AI 的目的
騰訊科技《潛望》欄目與知乎 CEO 周源進行了訪談,雙方談到了內容平臺的創新和 AI 技術帶來的影響。
在 AI 和社群的關係問題上,周源認為「人是 AI 的目的」,AI 是服務於人、賦能於人的。周源表示,AI 技術的升級是一種新的生產力,但是沒有誕生新的媒介,要將新生產力的新產出寫到現有媒介上,會帶來機會和挑戰。
周源稱,知乎是人和人進行交流的平臺,人和人的互動和人和 AI 的互動,是兩種不同正規化,它都可以成立。但把兩者混為一談,會產生很多混亂。
周源也認為把 AI 放在社群,讓它跟真人交流或扮演一個使用者的方式也是走不通的,因為人和人的交流需要信賴,使用者必須得知道你是什麼樣的人。(@ APPSO)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 結合多模態 AI 谷歌展示 AR 眼鏡原型機;Meta 被曝開發帶攝像頭的 AI 耳機丨 RTE 開發者日報 Vol.204AI谷歌原型開發者日報
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- AI 口語學習應用 Speak 新一輪融資估值 10 億美元;YouTube 推出 AI 多語言配音丨 RTE 開發者日報AI開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- Voice Agent 開發者必讀,2024 最前沿語音模型梳理模型
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 活動報名:Voice Agent 開發者分享會丨 RTE Meetup
- 李飛飛團隊多模態模型統一動作與語言;OpenAI 推出電話服務,讓更多人與 Chatgpt 對話丨 RTE 開發者日報模型OpenAIChatGPT開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- 阿里釋出多模態推理模型 QVQ-72B,視覺、語言能力雙提升;OpenAI 正在研發人形機器人丨 RTE 開發者日報阿里模型視覺OpenAI機器人開發者日報
- Fish Speech 更新V1.5:領先的多語言文字轉語音模型模型
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 量化交易機器人開發程式碼丨量化機器人功能系統開發(python多語言)機器人Python
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 英偉達世界基礎模型 Cosmos,教 AI 理解物理世界;阿里通義與雷鳥合作推出 AI 眼鏡丨 RTE 開發者日報模型AI阿里開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- Runway 新增影片擴充套件畫面功能;Anthropic 再獲亞馬遜投資 40 億美元,聚焦 AI 晶片研發丨 RTE 開發者日報套件亞馬遜AI晶片開發者日報
- 2024智源大會議程公開丨大語言模型模型
- 實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報大模型開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- 蘋果OpenELM:開源小語言模型蘋果模型
- 位元組跳動打響大模型價格戰;蘋果將在 iPhone、iPad 上推出眼球追蹤功能丨 RTE 開發者日報 Vol.205大模型蘋果iPhoneiPad開發者日報