一個令人驚豔的ChatGPT專案,開源了!

CodeSheep發表於2023-04-04

最近在GitHub上發現了一個爆火的開源專案。

好傢伙,湊近一看,居然還是由微軟開源,並且和最近炙手可熱的ChatGPT息息相關

專案的名字叫做:Visual ChatGPT

https://github.com/microsoft/visual-chatgpt

這個專案最早是3月上旬微軟開源的,專案宣佈開源後僅用了短短一週,就斬獲了2w+ star。

到現在為止,距離當初專案開源大約過去了3周多,倉庫star數則來到了28k+,亦可謂是火箭式上漲(doge)。

眾所周知,ChatGPT自2022年11月推出以來,持續走紅。

ChatGPT具備強大的會話能力,可以理解文字、聊天、寫小說、解答問題、編寫程式碼... 但是目前還並不能直接處理或生成影像。

而Visual ChatGPT這個專案則可以把ChatGPT和一系列視覺基礎模型(VFM,Visual Foundation Model)給聯絡起來,以便實現在ChatGPT聊天的過程中來傳送和接收影像,也使得ChatGPT能夠處理更為複雜的視覺任務。

講白了,就是透過Visual ChatGPT,可以把一系列視覺基礎模型給接入ChatGPT,使得ChatGPT能勝任更為複雜的視覺處理任務。

Visual ChatGPT的整體技術架構圖如上所示,我們可以清楚地看到ChatGPT和視覺基礎模型(VFM,Visual Foundation Model)分別位於其中的位置。

一方面,ChatGPT(或LLM)作為一個通用介面,繼續發揮它本身的優勢,提供對不同話題的智慧理解。另一方面,基礎視覺模型VFM則透過提供特定領域的深入知識來充當領域專家,它們透過互動管理模組(Prompt Manger)進行連線和適配。

這樣聊可能比較抽象,我們可以拿官方給的一個例子來進行說明:

1、首先是使用者:輸入一張黃色的向日葵圖片,並且要求ChatGPT根據該影像預測深度來生成一朵紅花,然後再一步一步將其做成卡通畫。

2、接著是互動管理模組(Prompt Manger)發揮作用,在它的協調和控制下,VFM模組開始發揮作用:

  • 首先需要運用深度估計模型來預測並生成影像的深度資訊;
  • 然後需要運用深度影像模型來生成對應空間深度的紅花影像;
  • 最後運用Stable Diffusion的風格遷移模型來完成影像風格的變換。

3、最後Visual ChatGPT系統再將最終結果返回給使用者,完成本次對話。

說到這裡,有興趣的小夥伴可以可以看看微軟給出的一篇有關Visual ChatGPT的論文。

裡面關於這部分的流程解釋得非常詳細,而且還給出了多輪對話的案例、以及實驗結果,有興趣的小夥伴可以看看。

好了,今天的分享就到這裡了,感謝大家的收看,我們下篇見。

注:本文在GitHub開源倉庫「程式設計之路」 https://github.com/rd2coding/Road2Coding 中已經收錄,裡面有我整理的6大程式設計方向(崗位)的自學路線+知識點大梳理、面試考點、我的簡歷、幾本硬核pdf筆記,以及程式設計師生活和感悟,歡迎star。

相關文章