Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報

RTE开发者社区發表於2024-11-04

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@鮑勃

01有話題的新聞

1、AI 熱潮推動!Python 超越 JavaScript,成 GitHub 最受歡迎程式語言

在最新的開發者平臺 GitHub 的報告中,Python 已經成功超越 JavaScript,成為使用最廣泛的程式語言。這一變化主要源於當前持續火熱的生成式人工智慧(AI)熱潮。

Python 在機器學習、資料科學和科學計算領域的日益重要性,推動了其在開源社群的崛起。GitHub 指出,Python 的流行與越來越多的 STEM(科學、技術、工程和數學)開發者加入開源社群密切相關。

儘管有人擔心人工智慧驅動的編碼可能導致開源專案中的程式碼質量下降,GitHub 卻表示沒有看到 AI 導致低質量貢獻的跡象。實際上,生成式 AI 專案的貢獻在 2024 年增長了 59%,而 AI 專案的總數幾乎翻了一番,增長率達到了 98%。

雖然美國的開發者在 AI 貢獻方面仍然處於領先地位,但來自印度、德國、日本和新加坡的開發者在整體活動方面表現出更高的活躍度。

與此同時,GitHub 觀察到開發者越來越多地將 AI 模型整合到他們的工具鏈中,並且在向更小、更高效的模型轉變,這些模型能夠在本地執行,並嵌入到移動應用中。2024 年增長最快的開源 AI 專案是 「ollama/ollama」,這是一款用於在本地計算機上執行語言模型的工具。

除了對小型開源模型的關注,GitHub 還指出,開發者對影像生成和 AI 代理進行過程自動化表現出強烈的興趣,他們正在開發更多針對特定用途的 AI 工具,例如用於學術研究的工具。在比較最受歡迎的開源 AI 專案時,雖然一些頂級專案保持穩定,但像 ollama 和 ComfyUI 這樣的新專案在 2024 年日益重要。

在其 2024 年宇宙大會上,GitHub 宣佈了新的語言模型整合,包括 Anthropic 的 Claude3.5Sonnet、Google 的 Gemini1.5Pro,以及 OpenAI 的 o1-preview 和 o1-mini 模型。作為微軟旗下的 GitHub 正在與其合作伙伴 OpenAI 在開發者工具市場展開競爭,這一擴充套件標誌著戰略的轉變。其他程式設計工具如 Cursor 也透過利用 Anthropic 的 Sonnet 模型獲得了越來越多的開發者青睞。(@AIbase 基地)

2、Claude 3.5 Sonnet 模型增加 PDF 檔案處理功能 可分析文件影像、圖表和表格

近日,人工智慧公司 Anthropic 宣佈,在其 Claude 3.5 Sonnet 模型中增加了 PDF 檔案處理的功能,目前該功能已進入公共測試階段。使用者現在可以使用該模型分析 PDF 文件中的文字和視覺元素,包括影像、圖表和表格等,適用於金融報告、法律檔案以及文件翻譯等多種場景。

Claude 3.5 Sonnet 的 PDF 處理過程分為三個步驟。首先,系統會從文件中提取文字內容。接著,每一頁文件會被轉換為影像,以便進行更深入的分析。這樣一來,使用者不僅可以獲取文字資訊,還能夠洞悉 PDF 檔案中的視覺資訊。

值得一提的是,Claude 的 PDF 功能還可以與其他功能結合使用,比如提取特定資訊並將其用作工具輸入。需要注意的是,上傳的檔案必須小於 32MB,且頁面數量不得超過 100 頁。該系統目前不支援加密或密碼保護的文件。(@AIbase 基地)

3、迪士尼成立新 AI 部門,探索人工智慧、混合現實等新型技術的潛力

據路透社報導,華特迪士尼正在組建一個新的小組,以協調公司對人工智慧和混合現實等新興技術的使用,這家媒體巨頭正積極探索 AI 等技術在電影、電視和主題公園等業務中的潛力。

根據路透社獲取的電子郵件,新成立的「技術賦能辦公室」(Office of Technology Enablement)將由傑米・沃里斯(Jamie Voris)領導,他是迪士尼電影製片廠的技術長,此前主導了迪士尼為蘋果 Vision Pro 混合現實裝置開發應用的工作。

迪士尼娛樂聯合主席艾倫・伯格曼(Alan Bergman)在郵件中寫道:「人工智慧和 XR(擴充套件現實)技術發展迅速,將對未來的消費者體驗、創意專案以及我們的業務產生深遠影響。因此,迪士尼必須抓住這一激動人心的機遇,同時審慎管理其中的潛在風險。」

此前報導,迪士尼集團去年成立了一個特別工作組,致力於研究人工智慧以及如何將其應用於整個集團,儘管好萊塢的編劇和演員們正努力抵制這項技術的入侵。

迪士尼去年就尋求在內部開發人工智慧應用程式,並與初創公司建立合作伙伴關係。(@IT 之家)

4、蘋果收購影像編輯應用 Pixelmator

iOS 和 macOS 平臺的影像編輯應用 Pixelmator 釋出公告,宣佈團隊將加入蘋果公司。

公告顯示,Pixelmator 已經簽署了一份被蘋果收購的協議,目前正在等待監管部門的批准。就目前而言,Pixelmator Pro 以及 iOS 版本的 Pixelmator 應用不會有任何重大變化,但 Pixelmator 預告接下來會有「令人興奮」的更新。

預計在收購後,Pixelmator 會和 Final Cut 和 Logic Pro 等專業應用一樣,保留獨立的應用形式,並進行單獨售賣,而不會像天氣應用 Dark Sky 般在蘋果收購後被關閉,相關技術整合入蘋果自帶天氣應用。

Pixelmator 在 iOS 平臺上售價 68 元,而進階版的 Pixelmator Pro 在 Mac App Store 上售價 328 元,這款應用的定位類似 Adobe 的 Photoshop,不過更強調易用性和高效能(@APPSO)

5、告別隨機生成!Runway 推出高階攝像機控制 像導演一樣掌控鏡頭

知名 AI 影片生成平臺 Runway 近日宣佈推出全新功能——高階攝像機控制。該功能允許使用者像操控真實攝影機一樣,精準控制虛擬場景中的鏡頭移動,為 AI 影片創作帶來前所未有的靈活性和掌控力。

使用者可以自定義鏡頭移動的方向和力度,實現水平移動、環繞拍攝、位置探索、迴圈拍攝、快速縮放和慢速滑動等多種效果。結合速度變化的迴圈拍攝功能尤其適合生成吸睛的視覺迴圈或過渡,極大擴充了創作潛力。快速縮放則可以像電影鏡頭一樣深入場景,而慢速滑動則能讓鏡頭平穩地滑過場景,突出細節或營造懸念。

Runway 表示,此次更新旨在改變使用者對數位相機工作的看法,實現無縫過渡和增強場景構圖。高階攝像機控制功能現已在 Runway 平臺上線,使用者可以透過 Gen-3Alpha Turbo 模型體驗。

這意味著,使用者在使用文字提示、影像或影片生成新影片時,不再侷限於隨機生成的結果。透過高階攝像機控制,使用者可以精確控制場景和主題的呈現方式,將觀眾帶入一個栩栩如生、看似 3D 的世界,就像置身於真實的電影場景之中(@AIbase 基地)

6、Fish Agent:多語言 Voice-to-Voice 開源語音模型

Fish Agent V0.1 3B 是 FishAudio 的一個突破性的 Voice-to-Voice 模型, 最大特點是不需要傳統的語義編碼器/解碼器(如 Whisper 和 CosyVoice)。

基於 Qwen-2.5-3B-Instruct 模型繼續預訓練, 使用了 2000 億語音和文字 tokens。

模型能力:

主要功能:語音到語音轉換、文字到語音合成

能準確捕捉和生成環境音訊資訊

支援 8 種語言的音訊處理

官方 GitHub 介紹的特性:

零樣本 & 小樣本 TTS:輸入 10 到 30 秒的聲音樣本即可生成高質量的 TTS 輸出。

多語言 & 跨語言支援:只需複製並貼上多語言文字到輸入框中,無需擔心語言問題。目前支援英語、日語、韓語、中文、法語、德語、阿拉伯語和西班牙語。

無音素依賴:模型具備強大的泛化能力,不依賴音素進行 TTS,能夠處理任何文字表示的語言。

高準確率:在 5 分鐘的英文文字上,達到了約 2% 的 CER(字元錯誤率)和 WER(詞錯誤率)。

快速:透過 fish-tech 加速,在 Nvidia RTX 4060 筆記本上的實時因子約為 1:5,在 Nvidia RTX 4090 上約為 1:15。

WebUI 推理:提供易於使用的基於 Gradio 的網頁使用者介面,相容 Chrome、Firefox、Edge 等瀏覽器。

GUI 推理:提供 PyQt6 圖形介面,與 API 伺服器無縫協作。支援 Linux、Windows 和 macOS。檢視 GUI。

易於部署:輕鬆設定推理伺服器,原生支援 Linux、Windows 和 macOS,最大程度減少速度損失。

模型地址:https://huggingface.co/fishaudio/fish-agent-v0.1-3b(@Mengshao@X&Fish Agent GitHub)

02有態度的觀點

1、知乎 CEO:人是 AI 的目的

騰訊科技《潛望》欄目與知乎 CEO 周源進行了訪談,雙方談到了內容平臺的創新和 AI 技術帶來的影響。

在 AI 和社群的關係問題上,周源認為「人是 AI 的目的」,AI 是服務於人、賦能於人的。周源表示,AI 技術的升級是一種新的生產力,但是沒有誕生新的媒介,要將新生產力的新產出寫到現有媒介上,會帶來機會和挑戰。

周源稱,知乎是人和人進行交流的平臺,人和人的互動和人和 AI 的互動,是兩種不同正規化,它都可以成立。但把兩者混為一談,會產生很多混亂。

周源也認為把 AI 放在社群,讓它跟真人交流或扮演一個使用者的方式也是走不通的,因為人和人的交流需要信賴,使用者必須得知道你是什麼樣的人。(@ APPSO)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章