Meta釋出了一個開源的NotebookLM

PetterLiu發表於2024-10-28

image

https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

Meta 的 Llama Recipes 中的 “NotebookLlama ”提供了一系列 Jupyter 筆記本指導,用於將 PDF 轉換成播客風格的音訊。工作流程包括四個步驟:處理 PDF、生成指令碼、增強對話語氣以及使用文字到語音模型進行旁白。它使用 Meta 的 Llama 模型,包括 1B、8B 和 70B 版本,以及 TTS 模型。這種設定需要高記憶體 GPU 或對 Hugging Face 模型的 API 訪問,鼓勵對提示和模型進行定製,以獲得最佳效果。

image

這是一系列有指導的教程/筆記本,可作為建立 PDF 到 Podcast 工作流程的參考或課程。您還可以從使用文字到語音模型的實驗中學習。 本文假定對 LLM、提示和音訊模型一無所知,所有內容都將在各自的筆記本中介紹。

大綱:


以下是完成任務的步驟思路(雙關語):

第 1 步:預處理 PDF: 使用 Llama-3.2-1B-Instruct 對 PDF 進行預處理,並將其儲存為 .txt 檔案。
第 2 步:謄寫器: 使用 Llama-3.1-70B-Instruct 模型根據文字編寫播客文字稿。
第 3 步:戲劇性重寫: 使用 Llama-3.1-8B-Instruct 模型使文字稿更加戲劇化
第 4 步:文字到語音工作流程: 使用 parler-tts/parler-tts-mini-v1 bark/suno 生成對話播客


注 1:在步驟 1 中,我們提示 1B 模型不要修改文字或對文字進行摘要,嚴格清理 PDF 編碼可能導致的多餘字元或垃圾字元。詳情請參見筆記本 1 中的提示。
注 2:對於第 2 步,您也可以使用 Llama-3.1-8B-Instruct 模型,我們建議您進行實驗,並嘗試是否有任何不同。這裡使用 70B 模型是因為在測試的示例中,該模型提供的播客文字稿稍有創意。
注 3:對於步驟 4,請嘗試使用其他模型來擴充套件該方法。這些機型是根據樣本提示選擇的,效果最好,更新的機型可能聽起來更好。有關部分測試示例,請參閱註釋。


執行筆記本的詳細步驟:


要求: GPU 伺服器或使用 70B、8B 和 1B Llama 模型的 API 提供商。如果要執行 70B 模型,您需要一個擁有 140GB 左右總記憶體的 GPU,以便以 bfloat-16 精度進行推斷。
注:對於 GPU 較差的朋友,也可以在整個流水線中使用 8B 或更低的模型。沒有強烈推薦。下面的管道是前幾次測試中效果最好的。您應該嘗試看看哪種方法最適合您!

在開始之前,請確保使用 huggingface cli 登入,然後啟動你的 jupyter notebook 伺服器,以確保你能下載 Llama 模型。
你需要你的 Hugging Face 訪問令牌,可以在這裡的設定頁面獲取。然後執行 huggingface-cli 登入,複製並貼上你的 Hugging Face 訪問令牌完成登入,以確保指令碼能在需要時下載 Hugging Face 模型。

首先,請從此處執行資料夾安裝需求:

git clone https://github.com/meta-llama/llama-recipes
cd llama-recipes/recipes/quickstart/NotebookLlama/
pip install -r requirements.txt


筆記本 1:
此筆記本用於處理 PDF,並使用新的 Feather light 模型將其處理為 .txt 檔案。

用您想使用的 PDF 連結更新第一個單元格。請決定筆記本 1 使用的 PDF,可以是任何連結,但請記住用正確的連結更新筆記本的第一個單元格。

請嘗試更改 Llama-3.2-1B-Instruct 模型的提示,看看能否改善結果。


筆記本 2:
本筆記本將接收筆記本 1 的處理輸出,並使用 Llama-3.1-70B-Instruct 模型將其創造性地轉換成播客文字稿。如果您的 GPU 資源豐富,請使用 405B 模型進行測試!

請嘗試使用該模型的系統提示進行實驗,看看是否能改善結果,並在此嘗試使用 8B 模型,看看是否有巨大差異!


筆記本 3:
這本筆記採用了之前的記錄,並提示 Llama-3.1-8B-Instruct 在對話中加入更多戲劇化和插話。

這裡還有一個關鍵因素:我們返回了一個對話元組,這讓我們以後的生活更輕鬆。是的,學習《資料結構 101》確實有用了一次!

對於我們的 TTS 邏輯,我們使用了兩種不同的模型,它們在特定提示下的行為各不相同。因此,我們會相應地提示模型為每個說話者新增具體內容。

請再次嘗試更改系統提示,看看能否改善效果。我們鼓勵您在此階段也測試輕便的 3B 和 1B 模型。


筆記本 4:
最後,我們將上一個筆記本中的結果轉換成播客。我們使用 parler-tts/parler-tts-mini-v1 和 bark/suno 模型進行對話。

parler 模型的發言人和提示是根據實驗和模型作者的建議決定的。請嘗試使用,您可以在資源部分找到更多詳細資訊。


注意:現在有一個問題: Parler 需要轉換器 4.43.3 或更早版本,而管道的第 1 步至第 3 步需要最新版本,因此我們只需在最後一個筆記本中切換版本即可。


下一改進/進一步的想法:


語音模型實驗: TTS 模型限制了聲音的自然程度。如果有更好的管道,並有更多知情人士的幫助,可能會有所改進!:)
LLM 與 LLM 辯論: 撰寫播客的另一種方法是讓兩名代理就感興趣的話題進行辯論,並撰寫播客大綱。現在,我們使用單個 LLM(70B)編寫播客大綱
測試 405B 來撰寫文字稿


生成示例

https://www.zhihu.com/zvideo/1834181112139743232


友情提示
支援攝影網站、音訊檔案、YouTube 連結等。我們再次歡迎社群PR!


進一步學習的資源:


https://betterprogramming.pub/text-to-audio-generation-with-bark-clearly-explained-4ee300a3713a

  • 這篇文章詳細介紹瞭如何使用Bark模型進行文字到音訊的生成。Bark是一個基於變換器的文字到音訊模型,由Suno AI建立,能夠生成高度逼真的多語言語音以及其他音訊型別,包括音樂、背景噪音和簡單的音效。文章可能還涵蓋了模型的工作原理、如何訓練和使用該模型,以及一些實際的應用示例。
    https://colab.research.google.com/drive/1dWWkZzvu7L9Bunq9zvD-W02RFUXoW-Pd?usp=sharing
  • Google Colab筆記本可能是一個互動式的教程或示例,用於演示如何使用Bark模型。使用者可以在Colab環境中直接執行程式碼,無需在本地計算機上安裝任何東西。
    https://colab.research.google.com/drive/1eJfA2XUa-mXwdMy7DoYKVYHI1iTd9Vkt?usp=sharing#scrollTo=NyYQ—3YksJY
  • 這是另一個Google Colab筆記本,可能包含更高階的教程或更復雜的示例,用於展示Bark模型的不同功能或應用場景。
    https://replicate.com/suno-ai/bark?prediction=zh8j6yddxxrge0cjp9asgzd534
  • 這個頁面提供了關於Bark模型在Replicate平臺上執行的詳細資訊。Replicate是一個平臺,允許使用者執行機器學習模型而無需自己管理基礎設施。頁面上提到,執行Bark模型的成本大約是每執行一次0.01美元,或者每1美元可以執行100次,具體成本取決於輸入。模型執行在Nvidia T4 GPU硬體上,預測通常在46秒內完成。此外,還提供了模型的開源資訊和如何在自己的計算機上使用Docker執行模型的指導。
    https://suno-ai.notion.site/8b8e8749ed514b0cbf3f699013548683?v=bc67cff786b04b50b3ceb756fd05f68c
  • 這個Notion頁面提供了Bark Speaker Library (v2)的詳細資訊,包括不同語言和性別的說話者樣本。頁面上列出了各種說話者,包括他們的語言、性別、標籤以及如何獲取他們的音訊樣本。這可能是一個資源庫,供研究人員和開發者選擇和使用不同的說話者聲音。

今天先到這兒,希望對雲原生,技術領導力, 企業管理,系統架構設計與評估,團隊管理, 專案管理, 產品管理,資訊保安,團隊建設 有參考作用 , 您可能感興趣的文章:
構建創業公司突擊小團隊
國際化環境下系統架構演化
微服務架構設計
影片直播平臺的系統架構演化
微服務與Docker介紹
Docker與CI持續整合/CD
網際網路電商購物車架構演變案例
網際網路業務場景下訊息佇列架構
網際網路高效研發團隊管理演進之一
訊息系統架構設計演進
網際網路電商搜尋架構演化之一
企業資訊化與軟體工程的迷思
企業專案化管理介紹
軟體專案成功之要素
人際溝通風格介紹一
精益IT組織與分享式領導
學習型組織與企業
企業創新文化與等級觀念
組織目標與個人目標
初創公司人才招聘與管理
人才公司環境與企業文化
企業文化、團隊文化與知識共享
高效能的團隊建設
專案管理溝通計劃
構建高效的研發與自動化運維
某大型電商雲平臺實踐
網際網路資料庫架構設計思路
IT基礎架構規劃方案一(網路系統規劃)
餐飲行業解決方案之客戶分析流程
餐飲行業解決方案之採購戰略制定與實施流程
餐飲行業解決方案之業務設計流程
供應鏈需求調研CheckList
企業應用之效能實時度量系統演變

如有想了解更多軟體設計與架構, 系統IT,企業資訊化, 團隊管理 資訊,請關注我的微信訂閱號:

image_thumb2_thumb_thumb_thumb_thumb[1]

作者:Petter Liu
出處:http://www.cnblogs.com/wintersun/
本文版權歸作者和部落格園共有,歡迎轉載,但未經作者同意必須保留此段宣告,且在文章頁面明顯位置給出原文連線,否則保留追究法律責任的權利。 該文章也同時釋出在我的獨立部落格中-Petter Liu Blog。

相關文章