What...MiniGPT-4居然開源了,提前感受 GPT-4 的影像對話能力!

夢之果峰發表於2023-04-21

說在前面的話:

一個月前,OpenAI向外界展示了GPT-4如何透過手繪草圖直接生成網站,令當時的觀眾瞠目結舌。

在GPT-4釋出會之後,相信大家對ChatGPT的對話能力已有所瞭解。圈內的朋友們應該已經親身體驗過無論是文字生成、編寫程式碼,還是上下文關聯對話能力,這些功能都一次又一次地震撼著我們。

還記得釋出會上,GPT-4展示的多模態能力,輸入不僅僅侷限於文字,還可以包括文字和影像,讓我大開眼界。

例如:畫個網站的草圖,GPT4 就可以立馬生成網站的 HTML 程式碼。

然而,時光荏苒!OpenAI至今尚未提供釋出會上展示的多模態處理能力!

原本以為我們還需要再等上一段時間才能看到這一功能的更新,然而意想不到的是,我發現了這樣一個專案。

這個專案被稱為MiniGPT-4,由著名的阿卜杜拉國王科技大學的幾位博士研究生共同完成。

更為重要的是,該專案完全開源!效果如影片中所展示的那樣:

MiniGPT-4線上體驗DEMO

MiniGPT-4能夠支援文字和影像輸入,成功實現了多模態輸入功能,實在令人歎為觀止!

GitHub專案地址:https://github.com/Vision-CAIR/MiniGPT-4

線上體驗連結:https://minigpt-4.github.io

另外作者還提供了網頁 Demo,可以直接體驗(這酸爽?):

MiniGPT-4介紹

  1. MiniGPT-4利用一個投影層將BLIP-2的凍結視覺編碼器與凍結的LLM(Vicuna)對齊。
  2. 我們分兩個階段訓練MiniGPT-4。第一個傳統預訓練階段使用大約500萬個影像-文字對,在4個A100顯示卡上訓練10小時。在第一階段之後,Vicuna能夠理解影像。但是,Vicuna的生成能力受到嚴重影響。
  3. 為解決這個問題並提高可用性,我們提出了一種新穎的方法,透過模型本身和ChatGPT共同建立高質量的影像-文字對。基於此,我們建立了一個小型(總共3500對)但高質量的資料集。
  4. 第二個微調階段在該資料集的會話模板上進行訓練,以顯著提高其生成可靠性和整體可用性。令我們驚訝的是,這個階段在計算上非常高效,僅使用單個A100花費約7分鐘。
  5. MiniGPT-4展現出許多類似於GPT-4演示的視覺-語言能力。

官方案例演示:

接下來,我將為大家展示幾個示例。

實驗結果表明,GPT-4的這些先進能力理論上可以歸因於它採用了更加先進的大型語言模型。

這意味著,未來在影像、聲音、影片等領域,基於這些大型語言模型所開發的應用,在實際效果上都將表現不俗。

這個專案驗證了大型語言模型在影像領域的可行性。接下來,預計會有更多開發者加入,將GPT-4的能力擴充套件至音訊、影片等領域,從而讓我們得以欣賞到更多有趣且令人驚豔的AI應用。

近日,我深入研究了許多關於ChatGPT註冊和變現的實用幹活資訊。 為了方便我自己以後的學習和閱讀,我整理了一些ChatGPT的操作技巧和實用工具:https://y3if3fk7ce.feishu.cn/docx/QBqwdyde7omVf4x69paconlgnAc

有興趣的朋友們可以藉此學習。

相關文章