What...MiniGPT-4居然開源了,提前感受 GPT-4 的影像對話能力！

夢之果峰發表於2023-04-21

原文網址 : https://www.cnblogs.com/aiaipro/p/17339975.html

說在前面的話：

一個月前，OpenAI向外界展示了GPT-4如何透過手繪草圖直接生成網站，令當時的觀眾瞠目結舌。

在GPT-4釋出會之後，相信大家對ChatGPT的對話能力已有所瞭解。圈內的朋友們應該已經親身體驗過無論是文字生成、編寫程式碼，還是上下文關聯對話能力，這些功能都一次又一次地震撼著我們。

還記得釋出會上，GPT-4展示的多模態能力，輸入不僅僅侷限於文字，還可以包括文字和影像，讓我大開眼界。

例如：畫個網站的草圖，GPT4 就可以立馬生成網站的 HTML 程式碼。

然而，時光荏苒！OpenAI至今尚未提供釋出會上展示的多模態處理能力！

原本以為我們還需要再等上一段時間才能看到這一功能的更新，然而意想不到的是，我發現了這樣一個專案。

這個專案被稱為MiniGPT-4，由著名的阿卜杜拉國王科技大學的幾位博士研究生共同完成。

更為重要的是，該專案完全開源！效果如影片中所展示的那樣：

MiniGPT-4線上體驗DEMO

MiniGPT-4能夠支援文字和影像輸入，成功實現了多模態輸入功能，實在令人歎為觀止！

GitHub專案地址：https://github.com/Vision-CAIR/MiniGPT-4

線上體驗連結：https://minigpt-4.github.io

另外作者還提供了網頁 Demo，可以直接體驗（這酸爽？）：

MiniGPT-4介紹

MiniGPT-4利用一個投影層將BLIP-2的凍結視覺編碼器與凍結的LLM（Vicuna）對齊。
我們分兩個階段訓練MiniGPT-4。第一個傳統預訓練階段使用大約500萬個影像-文字對，在4個A100顯示卡上訓練10小時。在第一階段之後，Vicuna能夠理解影像。但是，Vicuna的生成能力受到嚴重影響。
為解決這個問題並提高可用性，我們提出了一種新穎的方法，透過模型本身和ChatGPT共同建立高質量的影像-文字對。基於此，我們建立了一個小型（總共3500對）但高質量的資料集。
第二個微調階段在該資料集的會話模板上進行訓練，以顯著提高其生成可靠性和整體可用性。令我們驚訝的是，這個階段在計算上非常高效，僅使用單個A100花費約7分鐘。
MiniGPT-4展現出許多類似於GPT-4演示的視覺-語言能力。

官方案例演示：

接下來，我將為大家展示幾個示例。

實驗結果表明，GPT-4的這些先進能力理論上可以歸因於它採用了更加先進的大型語言模型。

這意味著，未來在影像、聲音、影片等領域，基於這些大型語言模型所開發的應用，在實際效果上都將表現不俗。

這個專案驗證了大型語言模型在影像領域的可行性。接下來，預計會有更多開發者加入，將GPT-4的能力擴充套件至音訊、影片等領域，從而讓我們得以欣賞到更多有趣且令人驚豔的AI應用。

近日，我深入研究了許多關於ChatGPT註冊和變現的實用幹活資訊。為了方便我自己以後的學習和閱讀，我整理了一些ChatGPT的操作技巧和實用工具：https://y3if3fk7ce.feishu.cn/docx/QBqwdyde7omVf4x69paconlgnAc

有興趣的朋友們可以藉此學習。

相關文章

紅警原始碼居然開源了
2020-06-15
原始碼
GPT-4 來了！這些開源的 GPT 應用又要變強了
2023-03-17
GPT
開源版AI程式設計師來了：GPT-4加持，能力比肩Devin，一天1.4k Star
2024-04-03
AI程式設計師GPTdev
大咖說·對話開源｜企業如何用好開源資料庫
2022-08-16
資料庫
首次結對感受
2024-03-26
曠視開源了一套影像檢索和ReID的PyTorch庫
2020-05-09
PyTorch
精準測試與開源工具Jacoco的覆蓋率能力對比
2019-08-12
開源工具
西方文明來源於對話
2024-07-12
曾爆火的 InstantID又有了新玩法：風格化影像生成，已開源
2024-04-15
Uber 宣佈開源 Plato 人工智慧對話平臺
2019-07-19
人工智慧
讀書感受之《好好說話2》
2018-12-21
獨家對話RadonDB設計者暢談開源背後的初心
2022-06-16
GPT-4，天網來了？
2023-03-15
GPT
GPT-4，終於來了！
2023-03-17
GPT
Mistral AI新模型對標GPT-4，不開源且與微軟合作，網友：忘了初心
2024-02-27
AI模型GPT微軟
【RAG 專案實戰 04】新增多輪對話能力
2024-11-23
開發了一個Java庫的Google Bard API，可以自動化與AI對話了
2023-03-31
JavaGoAPIAI
大白話開源協議
2024-03-06
協議
我不服！這開源專案居然才888個星！？
2021-06-11
簡單好看的Android圓形進度條對話方塊開源庫
2021-09-09
Android
開源了！唱吧 UI 元件庫開源了！
2021-12-31
UI元件
對開源的冷思考
2018-12-17
vue透過ollama介面呼叫開源模型實現人機對話
2024-11-09
Vue模型
影像處理開源資料集
2020-06-08
企業客服溝通對話資訊的開源大資料平臺：airy
2021-06-10
大資料AI
TiFlash 開源了
2022-04-01
多主攝計算影像實現了全焦段融合，具有出色的成像能力。
2022-03-03
大咖說·對話開源｜與 Tapdata 論道資料技術開放生態
2023-01-10
[資源]基於 Pytorch 的 TorchGAN開源了！
2018-12-30
PyTorch
“路選對了就不怕遠”，OceanBase“大膽”地開源
2021-06-03
【FAQ】HarmonyOS SDK 閉源開放能力 —ArkUI
2024-11-20
UI
這8句話易使程式設計師憤怒，程式設計師的你聽了是何感受？
2020-04-07
程式設計師
Spring中毒太深，離開Spring我居然連最基本的介面都不會寫了
2020-12-13
Spring
天了嚕，居然用Python查到了女神的姓名
2019-09-24
Python
大咖說 X 對話開源｜論資料庫人才發展戰略
2022-04-26
資料庫
ECCV 2024 | 讓GPT-4影像理解更易出錯，全新策略增強VLP模型對抗遷移性
2024-07-22
GPT模型
ACL 2024 | 讓純LLM實現類人的符號邏輯推理能力，開源框架SymbCoT來了
2024-06-07
符號框架
大學生對開源的反思
2018-06-14