又是王炸!微軟開源賈維斯

我的小熊不見了發表於2023-04-04

JARVIS,一個將LLMs(大模型們)與ML(機器學習)社群連線起來的系統。

隨著ChatGPT的誕生,眾多大模型也如雨後春筍般湧現,包括史丹佛的Alpaca,Meta的LLAMA,OpenAI的whisper以及stable-diffusion,還有清華大學開源的中文大語言模型ChatGLM。這些大模型專注於各自的領域,並具備出色的任務完成能力。目前你只能用alpaca去生成文字,用whisper處理語音,stable-diffusion生成影像。

使用midjourney或者stable-diffusion時,為了生成合適的影像,需要輸入恰當的prompt(提示詞),不同的prompt生成出來的影像可能有巨大的差異,因此許多人會先使用chatGPT,根據描述生成prompt,再將其輸入到midjourney中生成影像。

而ChatGPT本就是作為生產力工具出現的,如此複雜的步驟在工程師眼中是不可容忍的。因此JARVIS應運而生。透過將各種不相關的大模型(LLM)串聯在一起,去實現單一大模型無法完成的任務。在下圖的例子中可以很清楚的看到大模型能力的提升。

如圖,給JARVIS提出的需求是:生成一張小女孩看書的圖片,並且她的姿勢和提供的圖片裡小男孩的姿勢一樣。然後用語音描述這張新的圖片。

這個需求由於涉及到幾個大模型協同工作,因此目前單一的大模型無法處理。而JARVIS會將這個需求分解成幾個需求,每一個需求找到合適的大模型去處理,最終成功完成任務。

系統要求

  • Ubuntu 16.04 LTS
  • NVIDIA GeForce RTX 3090 * 1
  • RAM > 24GB

準備工作

JARVIS透過ChatGPT串聯各個大模型,因此需要準備openai.key,JARVIS會需要從huggingface下載大模型,因此還需要準備huggingface.cookie

專案描述

專案地址:https://github.com/microsoft/JARVIS

當有了以上資源後,就可以快速開始你的JARVIS之旅了。

提問:這些圖片裡有幾隻斑馬?

回答:

相關文章