1 報告內容
1.1 說明
本文是一篇關於 GPT-4o 的調研報告,主要關注 GPT-4o 的技術路線、新增特性、優劣勢、效能以及應用場景。報告的內容主要參考了 [1] 、[2] 和 [3] 。
1.2 簡介
GPT-4o 全稱是 GPT-4omni,是 2024 年 5 月 13 號 OpenAI 釋出的最新多模態 LLM,其中 omni 來自拉丁語 omnis, 寓意其無所不能的多模態能力。GPT-4o 在 AI 技術上帶來的巨大的突破,其可以理解和處理多種模態的輸入,包括文字、影像、語音和影片,並且是第一種具備從影片中解讀情緒的 LLM 模型。基於這種多模態資料的分析能力,GPT-4o 極大增強使用者的在 AI 技術上體驗。目前 OpenAI 仍在提升它的能力,預期很快就會有新的更新。它在多模態資料上的高效處理能力,使其具有更高的成功率、更快的響應速度以及更低的代價。
1.3 技術
GPT-4o 建立在之前的架構之上,整合了上下文視窗大小、標記化效率和多模態功能方面的增強,包括處理文字、音訊、影片和影像。這個單一模型在文字、視覺和音訊方面進行端到端訓練,確保所有輸入和輸出都由同一個神經網路管理。它採用帶有人類反饋的精細強化學習 (RLHF) ,顯著提高了其與人類價值觀和道德標準的一致性。GPT-4o 還具有先進的Transformer架構和增強的自我注意機制,可以更好地理解和生成細微的、與上下文相關的響應。利用 Nvidia 最先進的 GPU (以其並行處理能力而聞名),GPT-4o 可以有效地處理其複雜架構所需的大量計算。由於使用更大的訓練會話,該模型在可擴充套件性方面提供了更好的效能。GPT-4o 的速率限制比 GPT-4 Turbo 高 5 倍——每分鐘最多 1000 萬個令牌。這些進步使 GPT-4o 成為從對話式 AI 到內容生成和資料分析等各種應用的多功能工具。
a)o200k 基礎標記器:GPT-4o 引入了一種新的 o200k 基礎標記器演算法,標誌著與 GPT-4、GPT-4 Turbo 和 GPT-3.5 Turbo2 使用的 cl100k 基礎標記器的轉變。標記化將文字分解為稱為標記的較小單元,這在 NLP 中至關重要。o200k 基礎標記器透過更快、更高效的方式改進了以前的方法,使 GPT-4o 能夠以前所未有的速度處理和生成語言。它增強了生成文字的語義連貫性,並改進了對多種語言的處理,擴大了 GPT-4o 在各種語言環境中的適用性。
b)RAG-GPT:RAG-GPT3 是檢索增強生成 (RAG) 技術的高階實現,旨在透過將 LLM與高效的文件檢索系統整合來增強其功能。這種整合允許 RAG-GPT 在查詢處理過程中從廣泛的知識庫中獲取和整合資訊,從而提供更準確、更符合上下文的響應。將 RAG-GPT 整合到 GPT-4o 中可以提供精確而有根據的答案,這對於需要詳細和最新資訊的應用程式特別有用。這種方法不僅可以提高生成內容的質量,還可以更可靠地處理專業和複雜的查詢。
C)上下文視窗:GPT-4o 具有令人印象深刻的 128k 個標記的上下文視窗大小。更大的上下文視窗允許模型在單次互動中維護和處理大量資訊,從而增強其理解和生成與擴充套件對話相關的響應的能力。這個大的上下文視窗對於需要大量上下文保留、跟蹤對話的多個執行緒以及整合多條資訊的複雜任務特別有益。
d)雲基礎設施和 API 訪問:GPT-4o 旨在部署在可擴充套件的雲基礎設施(Microsoft Azure)上,為各種應用程式提供靈活的 API 訪問。這種基於雲的部署模型允許無縫擴充套件以滿足不同的使用者需求和工作負載。
1.4 特性
GPT-4o 具備了很多新的特性,支援其強大的功能:
-
多模態性:GPT-4o 是最新的多模態 LLM。它可以理解和生成口語,識別語音以轉錄文字並使用文字轉語音來生成語音。它的視覺功能使其能夠解釋和生成視覺內容,例如識別影像、生成新影像以及透過分析上傳的影像來解決問題。在文字互動中,GPT-4o 在 NLP方面表現出色,使其能夠撰寫論文、回答問題、提供摘要以及根據使用者輸入創作故事或詩歌。
-
增強互動:使用者可以更動態地與 ChatGPT 互動,實時中斷和接收響應。該模型可以檢測使用者情緒中的細微差別並以各種情緒語調做出回應,使對話更加自然和引人入勝。此外,它還可以處理需要廣泛知識的互動式問答環節。
-
資料分析:使用者可以從上傳的各種檔案格式的資料中建立互動式表格和圖表。Chat-GPT 會自動生成互動式表格檢視,使使用者可以滾動瀏覽所有行和列。使用者可以透過指定圖表型別或自動選擇來建立互動式圖表,自定義這些圖表的圖形,並生成摘要來解釋他們的發現。
-
多語言:GPT-4o 能夠響應 50 種不同的非英語語言。這種熟練程度確保了為全球受眾進行有效的溝通和內容生成,使其成為多種語言應用的寶貴工具。
-
記憶:聊天 GPT 引入了記憶功能,以避免使用者在對話中重複資訊並增強未來的互動。使用者可以控制記憶;他們可以指示它記住或忘記特定的細節,詢問它記住的內容,並管理這些設定或完全禁用記憶。
1.5 優勢和問題
GPT-4o 的優勢
-
更快的響應:GPT-4o 可以在短短 232 毫秒內響應音訊輸入,平均為 320 毫秒,這與人類在對話中的響應時間相似。
-
成本效益高:由於我們使用一個模型來處理各種型別的輸入資料,因此該 GPT-4o 模型具有成本效益。與之前的模型 GPT-4 Turbo 相比,這個聊天機器人的處理成本降低了約50%。
-
安全可靠:與之前的模型相比,GPT-4o 安全可靠。該模型基於人類的反饋,以強化學習為骨幹,使其更加可靠。他們還透過使用反饋減少了誤導性內容生成的數量GPT-4o 面臨的挑戰GPT-4o 的音訊模型僅限於預設的聲音,模型的發音或解釋有時可能不正確。此外,資料洩露仍然是數字世界的一個重要問題,強調需要保護使用者資料並遵守資料保護法規以保持信任和法律合規性。確保負責任地使用人工智慧、避免偏見和遵守道德規範是至關重要的考慮因素。
圖 1: OpenAI 提供的效能對比
1.6 效能
OpenAI 對其模型和同類模型進行了效能比較。圖 1a 展示了文字評估結果,顯示 GPT-4o 在 MMLU(88.7%)、GPQA(53.6%)、Math(76.6%)和 HumanEval(90.2%)基準測試中取得了最佳(SOTA)效能。對於 MGSM 基準測試,Claude 3 Opus 表現最佳(90.7%),其次是 GPT-4o(90.5%)。對於 DROP 基準測試,GPT-4T 表現最佳(86.0),其次是 Gemini Ultra 1.0(83.5)和 GPT-4o(83.4)。圖 1b 展示了各種視覺評估集之間的效能比較。與文字評估集類似,GPT-4o 在大多數指標中始終優於其他模型,在 MMLU(69.1%)、MathVista(63.8%)、AI2D(94.2%)、ChartQA(85.7%)、DocVQA(92.8%)、ActivityNet(61.9%)和EgoSchema(72.2%)中均達到 SOTA。GPT-4T 緊隨其後,但略微落後於 GPT-4o。對於選定的評估集,從圖 1 可以清楚地看出,GPT-4o 在這些任務中表現出強大的能力,而 Gemini1.0 Ultra、Gemini 1.5 Pro 和 Claude Opus 表現出競爭力,但總體上效能較低,在特定任務中有一些例外。OpenAI 在 GitHub 上提供了一個名為 Evals7 的評估框架。該框架提供了評估 LLM 的工具,幷包含一個開源基準登錄檔。它使使用者能夠使用資料集建立和執行評估以生成提示、評估模型輸出的質量以及比較各種資料集和模型的效能。
1.7 應用場景
GPT-4o 有潛力透過簡化人類生活的各個方面,顯著地實現世界的現代化和數字化。它的多種應用涵蓋眾多領域,如下所述,展示了它對廣泛領域的巨大影響。
a) 教育:GPT-4o 可以逐步指導學生解決任何數學問題,而無需額外的輔導。此外,它還可以用於學術研究,生成研究論文摘要、建議研究主題以及從大型資料集中提供見解。這些功能加速了研究過程,並透過使研究人員能夠快速理解和探索大量資訊,促進學術進步。
b) 醫療:GPT-4o 可以分析醫學影像和患者資料,幫助醫生更準確、更快地診斷疾病。它透過處理查詢、提供有關醫療狀況的資訊以及透過聊天機器人管理預約安排來增強患者互動。它還可以透過提供語音轉文字和文字轉語音解決方案來支援有視力障礙的學習者。
c) 客戶支援:GPT-4o 可以根據特定的業務需求進行定製,使人工智慧聊天機器人能夠全天候處理銀行查詢、交易詳情和賬戶管理,從而減少人工干預的需要。它支援能夠有效響應的高階虛擬助手,包括視覺資料。憑藉實時情感分析和多語言功能,GPT-4o 增強了全球影響力和客戶滿意度。
d) 金融:GPT-4o 可以分析財務資料並預測市場趨勢,使機構能夠管理風險並做出明智的投資決策。
e) 內容生成:GPT-4o 可用於創造性和分析目的,即製作海報、從文字輸入建立視覺表示、設計角色以及以不同的風格生成輸出。它還可以設計徽標、建立人物或物體的藝術作品、以不同的字型列印文字以及生成 3D 影像。
f) 程式碼審查:GPT-4o 還可以有效地審查程式碼。它可以在分析程式碼時識別適當的註釋和評論。此外,如果提供一張顯示程式碼的桌面圖片,GPT-4o 可以檢測程式碼中的問題。
1.8 小結
GPT-4o 代表了人工智慧領域的重大進步,在多模態能力、上下文視窗大小、標記效率和處理速度方面比其前代產品有了實質性的改進。透過整合改進的 RLHF 等先進技術並利用 Nvidia 的 GPU 等強大的硬體,GPT-4o 在理解和生成文字、音訊、影片和影像方面取得了卓越的表現。其應用涵蓋教育、醫學、客戶支援、金融和內容生成等各個領域,展示了其多功能性和使人類生活的眾多方面現代化和數字化的潛力。然而,儘管取得了這些進步,GPT-4o 仍然面臨著諸多挑戰,例如確保合乎道德的人工智慧使用、保護使用者資料以及克服系統中斷等技術問題。解決這些挑戰對於最大限度地發揮模型的優勢和保持使用者信任至關重要。
參考文獻
[1] T. Wu, S. He, J. Liu, S. Sun, K. Liu, Q.-L. Han, and Y. Tang, “A brief overview of chatgpt: The history, status quo and potential future development,” IEEE/CAA Journal of Automatica Sinica, vol. 10, no. 5, pp. 1122–1136, 2023.
[2] R. Islam and O. M. Moushi, “Gpt-4o: The cutting-edge advancement in multimodal llm,” Authorea Preprints, 2024.
[3] OpenAI, “Hello gpt-4o, https://openai.com/index/hello-gpt-4o/.”