Transformers.js實現瀏覽器內WebGPU加速的實時語音識別

banq發表於2024-06-08


transformers.js是最先進的Web機器學習。直接在瀏覽器中執行 Transformers,無需伺服器!

Transformers.js 的設計功能與 Hugging Face 的transformers python 庫相同,這意味著您可以使用非常相似的 API 執行相同的預訓練模型。這些模型支援不同模式下的常見任務,例如:

  • 自然語言處理:文字分類、命名實體識別、問答、語言建模、摘要、翻譯、多項選擇和文字生成。
  • 計算機視覺:影像分類、物體檢測和分割。
  • 音訊:自動語音識別和音訊分類。
  • 多模態:零樣本影像分類。

Transformers.js 使用ONNX Runtime在瀏覽器中執行模型。最棒的是,您可以使用Optimum輕鬆將預訓練的 PyTorch、TensorFlow 或 JAX 模型轉換為 ONNX 。

whisper-base
模型 (whisper-base) 完全在裝置上執行,並支援 100 種不同語言的多語言轉錄。

演示:https://huggingface.co/spaces/Xenova/realtime-whisper-webgpu

  • Whisper tiny 甚至可以在 c++ 中以實時速度在 CPU 上執行。
  • 對於這個演示示例 a,執行了一個 4090,生成 50tok/s,透過工作管理員檢查,它佔用了大約 10% 的 GPU(甚至沒有接近完全利用率)。

這是一個 WebComponent,網路上的任何人都可以輕鬆將其放入他們的網站。
 

相關文章