上個月GPT-4釋出時,我曾寫過一篇文章分享過有關GPT-4的幾個關鍵資訊。
當時的分享就提到了GPT-4的一個重要特性,那就是多模態能力。
比如釋出會上演示的,輸入一幅圖(手套掉下去會怎麼樣?)。
GPT-4可以理解並輸出給到:它會掉到木板上,並且球會被彈飛。
再比如給GPT-4一張長相奇怪的充電器圖片,問為什麼這很可笑?
GPT-4回答道,VGA 線充 iPhone。
使用者甚至還可以直接畫一個網站草圖拍照丟給GPT-4,它就可以立馬幫助生成程式碼。
但是時間過去了這麼久,GPT-4像這樣的識圖功能也遲遲沒有開放。
就在大家都在等待這個功能開放的時候,一個名為MiniGPT-4的開源專案悄悄做了這件事情。
https://github.com/Vision-CAIR/MiniGPT-4
沒錯,就是為了增強視覺語言理解。
MiniGPT-4背後團隊來自KAUST(沙特阿卜杜拉國王科技大學),是幾位博士開發的。
專案除了是開源的之外,而且還提供了網頁版的demo,使用者可以直接進去體驗。
MiniGPT-4也是基於一些開源大模型來訓練得到的。
團隊把影像編碼器與開源語言模型Vicuna(小羊駝)整合起來,並且凍結了兩者的大部分引數,只需要訓練很少一部分。
訓練分為兩個階段。
傳統預訓練階段,在4張A100上使用500萬圖文對,10個小時內就可以完成,此時訓練出來的Vicuna已能夠理解影像,但生成能力有限。
然後在第二個調優階段再用一些小的高質量資料集進行訓練。這時候的計算效率很高,單卡A100只需要7分鐘。
並且團隊正在準備一個更輕量級的版本,部署起來只需要23GB視訊記憶體,這也就意味著未來可以在一些消費級的顯示卡中或許就可以進行本地訓練了。
這裡也給大家看幾個例子。
比如丟一張食物的照片進去來獲得菜譜。
或者給出一張商品的照片來讓其幫忙寫一篇文案。
當然也可以像之前GPT-4釋出會上演示的那樣,畫出一個網頁,讓其幫忙生成程式碼。
可以說,GPT-4釋出會上演示過的功能,MiniGPT-4基本也都有。
這一點可以說非常amazing了!
可能由於目前使用的人比較多,在MiniGPT-4網頁demo上試用時會遇到排隊的情況,需要在佇列中等待。
但是使用者也可以自行本地部署服務,過程並不複雜。
首先是下載專案&準備環境:
git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4
然後下載預訓練模型:
最後在本地啟動Demo:
python demo.py --cfg-path eval_configs/minigpt4_eval.yaml
透過這個專案我們也再一次看出大模型在視覺領域的可行性,未來在影像、音訊、影片等方面的應用前景應該也是非常不錯的,我們可以期待一下。
好了,今天的分享就到這裡了,感謝大家的收看,我們下期見。
注:本文在GitHub開源倉庫「程式設計之路」 https://github.com/rd2coding/Road2Coding 中已經收錄,裡面有我整理的6大程式設計方向(崗位)的自學路線+知識點大梳理、面試考點、我的簡歷、幾本硬核pdf筆記,以及程式設計師生活和感悟,歡迎star。