JARVIS,一個將LLMs(大模型們)與ML(機器學習)社群連線起來的系統。
隨著ChatGPT的誕生,眾多大模型也如雨後春筍般湧現,包括史丹佛的Alpaca,Meta的LLAMA,OpenAI的whisper以及stable-diffusion,還有清華大學開源的中文大語言模型ChatGLM。這些大模型專注於各自的領域,並具備出色的任務完成能力。目前你只能用alpaca去生成文字,用whisper處理語音,stable-diffusion生成影像。
使用midjourney或者stable-diffusion時,為了生成合適的影像,需要輸入恰當的prompt(提示詞),不同的prompt生成出來的影像可能有巨大的差異,因此許多人會先使用chatGPT,根據描述生成prompt,再將其輸入到midjourney中生成影像。
而ChatGPT本就是作為生產力工具出現的,如此複雜的步驟在工程師眼中是不可容忍的。因此JARVIS應運而生。透過將各種不相關的大模型(LLM)串聯在一起,去實現單一大模型無法完成的任務。在下圖的例子中可以很清楚的看到大模型能力的提升。
如圖,給JARVIS提出的需求是:生成一張小女孩看書的圖片,並且她的姿勢和提供的圖片裡小男孩的姿勢一樣。然後用語音描述這張新的圖片。
這個需求由於涉及到幾個大模型協同工作,因此目前單一的大模型無法處理。而JARVIS會將這個需求分解成幾個需求,每一個需求找到合適的大模型去處理,最終成功完成任務。
系統要求
- Ubuntu 16.04 LTS
- NVIDIA GeForce RTX 3090 * 1
- RAM > 24GB
準備工作
JARVIS透過ChatGPT串聯各個大模型,因此需要準備openai.key
,JARVIS會需要從huggingface
下載大模型,因此還需要準備huggingface.cookie
。
專案描述
專案地址:https://github.com/microsoft/JARVIS
當有了以上資源後,就可以快速開始你的JARVIS之旅了。
提問:這些圖片裡有幾隻斑馬?
回答: