每一週,我們的同事都會向社群的成員們釋出一些關於 Hugging Face 相關的更新,包括我們的產品和平臺更新、社群活動、學習資源和內容更新、開源庫和模型更新等,我們將其稱之為「Hugging News」,本期 Hugging News 有哪些有趣的訊息,快來看看吧!
產品更新
Paper Pages 大更新
我們正在繼續加深與預印本平臺 (arXiv.org) 的合作和整合,除了可以在論文頁面直接找到 Hugging Face 上的 Space 應用以外,我們又為 Hugging Face Hub 上線了一個論文頁面,比如: https://hf.co/papers/2211.05100
你還可以透過論文編號查詢模型、資料集和 Space 應用,也可以在模型和資料集頁面直接訪問到論文頁面:
與此同時,如果你是某個論文的作者之一,你還可以在 Hugging Face 的論文頁面來“認領”和關聯你的 Hugging Face 賬號。
使用者的個人頁面也會顯示自己的論文:
快來試試看吧!
Docker ❤️ HuggingFace
你可以在 Spaces 中使用 Docker SDK 來構建你的機器學習應用。上一週,我們還發布了一項與 Docker 的合作,現在你可以將你的 Space 應用一鍵使用 Docker 部署到其他環境中啦!
Hub 對 ipynb 檔案 (Jupyter Notebook) 的兩個重要更新
Hub 的頁面現在可以直接渲染 .ipynb 檔案 (Jupyter Notebook) 啦 ,除此之外,我們還與 Google Colab 團隊合作,現在 Colab 可以直接開啟託管在 Hugging Face Hub 上的 .ipynb 檔案啦:
Zapier 平臺加入對 Hugging Face 的整合支援
Zapier 是一個自動化工作平臺,而無需編寫任何程式碼即可快速自動化很多業務流程。透過與Hugging Face 的整合,你可以使用將任意其他工作流程與 Hugging Face 提供的 AI 模型能力結合。快來試試看吧:
https://zapier.com/apps/hugging-face/integrations
社群活動
Gradio 創意主題構建大賽
Gradio 團隊發起了一個主題構建駭客松活動,快來參與吧!本次和駭客松活動為期兩週,你可以發揮創意和腦洞任意構建有意思的 Gradio 主題。下面有一個影片來簡單介紹如何上手製作一個主題:
https://www.bilibili.com/video/BV1Xv4y1H7it/
如果你想參與,請在這個頁面檢視參與方法:
https://hf.co/Gradio-Themes
也可以在這個 Space 應用裡檢視別人做的主題:
https://hf.co/spaces/gradio/theme-gallery
開源庫更新
bloomz.cpp 讓你在 Mac 和手機上執行 BLOOM 模型
bloomz.cpp 是一個用純 C/C++ 實現 Hugging Face 的 BLOOM 系列模型推理的程式碼庫。它建立在 @ggerganov 的 llama.cpp 庫之上,支援使用 BloomForCausalLM.from_pretrained()
載入的所有模型。庫還支援高階用法,可以進行更詳細的設定和自定義操作。
GitHub 地址: https://github.com/NouamaneTazi/bloomz.cpp
The Stack 資料集 v1.2 正式版釋出
The Stack 是 BigCode 專案的一部分,這是一個包含了 300 種程式語言的開原始碼資料集。
資料集頁面: https://hf.co/datasets/bigcode/the-stack
Common Voice 13 資料集現已「登陸」 Hugging Face
Common Voice 的多語言資料集是最大的公開語音資料集,Mozilla 相信,一組大型、可公開使用的語音資料集,將可促進基於機器學習的語音技術的創新,與健康的商業競爭。目前,Common Voice 13 資料集已經在 Hugging Face Hub 上釋出,藉助 Datasets 庫,你只需要幾行程式碼就可以使用它。
資料集頁面: https://hf.co/datasets/mozilla-foundation/common_voice_13_0
TRL v0.4.1 釋出
TRL (Transformer Reinforcement Learning) 是一個用於訓練具有增強學習的 Transformer 語言模型的庫,可與?transformers 整合。它支援使用 Proximal Policy Optimization(PPO)最佳化解碼器模型,例如 GPT-2、BLOOM、GPT-Neo。
0.4.1 版本更新包括支援大型模型訓練、簡易 pipeline 並行、peft 資料並行支援,以及分散式訓練的錯誤修復。簡易管道並行支援大規模模型在訓練設定中進行擬合,以便在這些模型上應用 RLHF。此功能使用 peft 訓練介面卡,同時利用 bitsandbytes 來減少活動模型的記憶體佔用。透過修復與 peft 整合和 DP 相關的錯誤,支援多 GPU 訓練。此外,對於 PyTorch 2.0 的釋出,本次更新還包括一些小的修復。
GitHub 地址: https://github.com/lvwerra/trl
祝大家有一個愉快的週末,我們下週見!