谷歌AI播客剛火，Meta就開源了平替，效果一言難盡

机器之心發表於2024-10-28

原文網址 : https://www.jiqizhixin.com/articles/2024-10-28-5

隨著谷歌和 Meta 相繼推出基於大語言模型的 AI 播客功能，將極大地豐富人類使用者與 AI 智慧體互動的體驗。

上個月，谷歌宣佈對旗下 AI 筆記應用 NotebookLM 進行一系列更新，允許使用者生成 YouTube 影片和音訊檔案的摘要，甚至可以建立可共享的 AI 生成音訊討論。加上此前支援的谷歌文件、PDF、文字檔案、谷歌幻燈片和網頁，NotebookLM 的用例和覆蓋範圍進一步擴大。

本月初，AI 大牛 Karpathy 發推表示自己只用了兩個小時就建立了一個 10 集的系列部落格 —— 歷史謎團（Histories of Mysteries），其中就使用 NotebookLM 將每個主題的維基百科條目連結在一起，並生成播客影片；同時也使用 NotebookLM 編寫部落格 / 劇集描述。

就這兩天，Meta 推出了 NotebookLM 的開源平替版 ——NotebookLlama，它使用 Llama 模型進行大部分任務處理，包括 Llama-3.2-1B-Instruct、Llama-3.1-70B-Instruct 和 Llama-3.1-8B-Instruct。

下圖為 NotebookLlama 執行流程，首先從檔案（比如新聞文章或部落格文章）建立轉錄文字，然後新增「更多戲劇化」和中斷，最後將轉錄文字饋入到開放的文字到語音模型。

據外媒 Techcrunch 報導，NotebookLlama 的效果聽起來不如谷歌 NotebookLM 好，帶有明顯的機器人口音，並且往往會在奇怪的時刻「互相交談」。不過，專案背後的 Meta 研究人員表示，使用更強大的模型還可以提高質量。

Meta 研究人員在 NotebookLlama 的 GitHub 頁面寫到，「文字到語音模型限制了聲音的自然程度。」此外，編寫播客的另一種方法是讓兩個智慧體就感興趣的主題進行討論並編寫播客大綱。現在，Meta 只使用了一個模型來編寫播客大綱。

就像下面所展示的，雖然播客內容還有一些粗糙，但它聽起來已經很不錯了。谷歌AI播客剛火，Meta就開源了平替，效果一言難盡

對於 Meta 的 NotebookLlama，有人直言聽起來糟糕透了，要想真正地對標谷歌的 NotebookLM，就要在語音轉換效果上接近人類水平。不過也有人認為，雖然目前效果不佳，但隨著所有程式碼的開源，使用者可以自定義嘗試不同的提示方法等，相信未來會變得更好。

雖然效果還是差點意思，但也有網友表示：「現在是時候讓 Google 加快步伐了，Meta 已經緊隨其後趕上來了，開源 NotebookLM。」

專案介紹

根據 Meta 釋出的教程配方，你可以基於 PDF 檔案構建播客。

專案地址：https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

第一步：對 PDF 進行預處理。即使用 Llama-3.2-1B-Instruct 對 PDF 進行預處理，並將其儲存為.txt 檔案；
第二步：轉錄文字編寫器。使用 Llama-3.1-70B-Instruct 模型從文字中編寫播客轉錄文字；
第三步：對內容重新最佳化，新增戲劇性。使用 Llama-3.1-8B-Instruct 模型使轉錄文字更具有創意；
第四步：文字到語音。使用 parer -tts/parer -tts-mini-v1（文字到語音模型）和 bark/suno 生成會話播客。

不過，還有幾個值得大家注意的點：

首先，在步驟 1 中，需要提示 1B 模型不要修改文字或對文字進行總結，並嚴格清理掉可能在 PDF 轉錄過程中出現的多餘字元或垃圾字元。

其次，對於步驟 2，你也可以使用 Llama-3.1-8B-Instruct 模型，然後對比不同模型的效果。專案中採用的是 70B 模型，原因在於它為測試示例提供了更具創意的播客記錄。

對於步驟 4，你也可以使用其他模型進行擴充套件，較新的模型可能聽起來更好。

想要順暢的執行該專案，你需要有 GPU 伺服器或者使用 70B、8B 和 1B Llama 模型的 API 提供商。如果你採用的是 70B 模型，那麼需要一個總記憶體約為 140GB 的 GPU 來以 bfloat-16 精度進行推理。

退一步講，如果你的 GPU 並不是很好，也可以使用 8B 模型跑通整個 pipeline。

接下來是安裝。在開始之前，請確保使用 huggingface cli 登入，然後啟動 jupyter notebook ，以確保能夠下載 Llama 模型。

接著執行程式碼：

git clone https://github.com/meta-llama/llama-recipes

cd llama-recipes/recipes/quickstart/NotebookLlama/

pip install -r requirements.txt

Notebook 1：Notebook 1 用於處理 PDF，並使用新的 Feather light 模型將其處理為.txt 檔案。

Notebook 2：Notebook 2 將接收 Notebook 1 處理後的輸出，並使用 Llama-3.1-70B-Instruct 模型創造性地將其轉換為播客指令碼。如果你擁有豐富的 GPU 資源，也可以使用 405B 模型進行測試！

Notebook 3：Notebook 3 採用了之前的文字，並提示 Llama-3.1-8B-Instruct 在對話中新增更多的戲劇化和中斷。

Notebook 4：最後，Notebook 4 從上一個 notebook 中獲取結果並將其轉換為播客。專案中使用了 parer -tts/parer - ttts -mini-v1 和 bark/suno 模型進行對話。

這裡有一個問題：Parler 需要 4.43.3 或更早版本的 transformer，但對於 pipeline 中的步驟 1 到 3，需要最新的版本，所以需要在最後一個 notebook 中切換版本。

最後，專案列出了未來需要改進的地方：

語音模型：TTS 模型使語音聽起來不是很自然，未來可以納入更好的模型；
更好的提示；
支援提取網站、音訊檔案、YouTube 連結等。

^{參考連結：https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/?guccounter=1}

新火種AI | 谷歌Gemini“抄襲”百度文心一言？AI訓練資料陷入大難題
2023-12-19
AI谷歌
RTX 4090可跑、完全開源，最快影片生成模型問世，實測一言難盡
2024-11-24
模型
剛剛，Meta開源「分割一切」2.0模型，影片也能分割了
2024-07-30
模型
Meta AI 開源萬物可分割 AI 模型(SAM)
2023-04-11
AI模型
Intel Arc銳炫顯示卡全部亮相：效能一言難盡！
2022-02-28
Intel
一言難盡，Jpa這個功能差點讓我丟了工作
2021-09-09
大部分面試官知識面和深度真一言難盡……就會 leetcode 和八股
2020-12-19
面試LeetCode
剛剛，華為全場景 AI 計算框架MindSpore開源！
2020-03-28
AI框架
PodLM.ai播客內容生成平臺介紹
2024-10-12
AI
直播平臺開發，使用swiper實現輪播效果
2023-09-21
雙十一結束了，但AI的退貨“打怪之旅”剛剛開始
2019-11-13
AI
剛剛！為吊打谷歌，微軟砸10億美元佈局AI，網友炸了！發帖上熱門……
2019-07-29
谷歌微軟AI
剛剛卸任的谷歌搜尋及AI負責人，被蘋果挖走了
2018-04-04
谷歌AI蘋果
剛剛！2019全球AI報告發布，這8個崗位2020年必火！
2020-02-26
AI
win10剛開機cpu就滿了怎麼辦 win10電腦剛開機cpu滿了的解決方法
2022-05-05
Win10
剛剛，阿里開源 iOS 協程開發框架 coobjc！
2019-02-28
阿里iOS框架OBJ
各種NLP操作難實現？谷歌開源序列建模框架Lingvo
2019-02-27
谷歌框架
Meta開源Llama 3釋出
2024-04-19
訴訟車輪戰：Facebook重錘NSO，曝背後一言難盡的安全隱憂
2020-04-29
剛剛，ChatGPT開始有了執行力！
2025-01-15
ChatGPT
MetaGPT開源SELA，用AI設計AI，效果超越OpenAI使用的AIDE
2024-11-02
GPTOpenAIIDE
一言不合就重構
2022-11-30
剛剛，我們感受了一波最「像人」的國產AI，模型還是開源的
2024-10-25
AI模型
Meta將PyTorch獻給Linux基金會，將AI/ML帶回研究/開源根源？
2022-09-19
PyTorchLinuxAI
使用此開源工具在一起收取你的 RSS 訂閱源和播客
2020-02-10
開源工具
15歲山東初中生做CTO，開源專案剛剛被數百萬元收購了
2024-11-04
Meta釋出了一個開源的NotebookLM
2024-10-28
Flex很難？一文就足夠了
2019-01-03
Flex
CTQ難理解？這樣說你就明白了
2022-05-19
基於釦子AI智慧體生成雙語播客
2024-10-19
AI智慧體
『學了就忘』Linux日誌管理 — 92、日誌輪替
2021-12-24
Linux
Tracardi：開源客戶資料整合與分析平臺
2022-03-16
端側AI推理，高效部署PyTorch模型：官方新工具開源，Meta已經用上了
2023-10-18
AIPyTorch模型
剛剛，谷歌終於迴應AI專利爭議：怕被碰瓷，搶先下手，永不牟利
2019-07-11
谷歌AI
谷歌宣佈開源AdaNet！
2018-11-02
谷歌
阿里開源軟體替換指南
2019-01-21
阿里
谷歌剛剛釋出讓照片動起來的VLOGGER
2024-04-02
谷歌
Meta無限長文字大模型來了：引數僅7B，已開源
2024-04-17
大模型

谷歌AI播客剛火，Meta就開源了平替，效果一言難盡

相關文章