乏善可陳的第二屆OpenAI開發者大會,果然沒有掀起太大波瀾

机器之心發表於2024-10-02

OpenAI宮鬥後的 DevDay 開發者大會,沒有什麼驚喜。


OpenAI 的宮斗大戲剛落下帷幕,今日凌晨就在舊金山召開了第二屆 DevDay 開發者大會。

不過,與去年盛大的活動相比,今年略顯低調,他們沒有推出重大產品,而是選擇對其現有的 AI 工具和 API 進行增量改進。

在這次活動中,OpenAI 釋出了四大API新功能:視覺微調(Vision Fine-Tuning)、實時 API(Realtime API)、模型蒸餾(Model Distillation)和提示快取(Prompt Caching)。

這些新工具突出了 OpenAI 的戰略轉變,即轉向賦予其開發者生態系統更多能力,而不是直接在終端使用者應用領域競爭。

Sam Altman 也在 X 上表示,從 GPT-4 到 4o mini,每個 token 的成本降低 98%,同時處理 token 的數量暴漲 50 倍。
圖片
最後,Altman 還不忘「鼓舞士氣」:通往 AGI 的道路從未如此清晰。
圖片
實時 API:構建快速的語音到語音體驗

OpenAI 在開發者大會上正式推出實時 API 的公測版,允許所有付費開發者在他們的應用程式中構建低延遲、多模態的體驗。

與 ChatGPT 的高階語音模式類似,實時 API 支援使用 API 中已經支援的 6 種預設語音進行自然的語音到語音對話。這意味著開發者可以開始將 ChatGPT 的語音控制新增到應用程式中。

他們還推出了聊天完成 API(Chat Completions API)中的音訊輸入和輸出功能,以支援那些不需要實時 API 低延遲優勢的使用場景。

以前,要建立類似的語音助手體驗,開發者需要使用像 Whisper 這樣的自動語音識別模型來轉錄音訊,然後將文字傳遞給文字模型進行推理,最後使用文字到語音模型播放模型的輸出。這種方法常常導致情感和口音的丟失,以及明顯的延遲。

現在有了聊天完成 API,開發者可以用一個 API 呼叫來處理整個流程,儘管它仍然比人類對話慢。實時 API 透過直接流式傳輸音訊輸入和輸出來改進這一點,使得會話體驗更加自然。它還可以自動處理中斷,就像 ChatGPT 中的高階語音模式一樣。

實時 API 本質上簡化了構建語音助手和其他會話 AI 工具的過程,消除了將多個模型組合用於轉錄、推理和文字到語音轉換的需要。

例如,一個名為 Speak 的語言學習平臺,使用實時 API 來驅動其角色扮演功能,鼓勵使用者練習用新語言進行對話。乏善可陳的第二屆OpenAI開發者大會,果然沒有掀起太大波瀾
實時 API 使用文字和音訊 token 價格也已出爐。

文字輸入 token 的價格是每 100 萬個 5 美元,輸出 token 每 100 萬個 20 美元。

音訊輸入的價格是每 100 萬個 100 美元,輸出是每 100 萬個 200 美元。這相當於每分鐘音訊輸入約 0.06 美元,每分鐘音訊輸出約 0.24 美元。

對於希望建立基於語音的應用程式的開發者來說,這個價格還是比較公道的。

視覺微調:使用影像和文字微調 GPT-4o

自從 OpenAI 在 GPT-4o 上首次引入微調功能以來,已經有成千上萬的開發者使用僅限文字的資料集定製模型,以提高特定任務的效能。然而,在許多情況下,僅對文字進行模型微調並不能提供預期的效能提升。

因此,此次 OpenAI 宣佈為 GPT-4o 引入視覺微調功能,允許開發者使用影像和文字來自定義模型的視覺理解能力,從而實現增強的視覺搜尋功能、改進自動駕駛汽車或智慧城市的物體檢測,以及更準確的醫學影像分析等應用。

例如,東南亞的一家食品配送和共享出行公司 Grab 已經利用這項技術來改進其地圖服務。僅使用 100 個示例的視覺微調,Grab 在車道計數準確率上提高了 20%,在限速標誌定位上提升了 13%,超過了基礎 GPT-4o 模型。

這一現實世界的應用展示了視覺微調的可能性,即使用少量的視覺訓練資料,也能顯著增強各行各業的人工智慧服務。

目前,所有付費使用者都可以使用視覺微調功能,直到 2024 年 10 月 31 日,OpenAI 每天為開發者提供免費的 100 萬個訓練 token,用於透過影像微調 GPT-4o 模型。

2024 年 10 月 31 日之後,微調 GPT-4o 模型的費用將是每 100 萬個 token 25 美元,推理的費用是每 100 萬個輸入 token 3.75 美元,每 100 萬個輸出 token 15 美元。

提示快取:成本可降低50%

許多開發者在構建 AI 應用程式時會在多個 API 呼叫中重複使用相同的上下文,比如在編輯程式碼庫或與聊天機器人進行長時間、多輪次的對話時。

今天,OpenAI 引入了提示快取(Prompt Caching),這是一個旨在降低開發者成本和延遲的功能。

該系統會自動對模型最近處理過的輸入 tokens 應用打 50% 的折扣,對於頻繁重複使用上下文的應用來說,這可能會帶來成本的大幅降低。
圖片
提示快取將自動應用於最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini,以及這些模型的微調版本。
圖片
(來源:OpenAI)OpenAI 在 2024 DevDay 上公佈的定價表顯示,AI 模型使用成本大幅降低,快取輸入 tokens 相比未快取 tokens 在各種 GPT 模型中最多可節省 50% 的費用。新的 o1 模型展示了其高階功能的溢價定價。

「我們一直很忙,」OpenAI 平臺產品負責人奧利維爾・戈德蒙特(Olivier Godement)在公司舊金山總部舉行的小型新聞釋出會上說,「就在兩年前,GPT-3 還處於領先地位。現在,我們已經將成本降低了近 1000 倍。我試圖想出一個在兩年內將成本降低了近 1000 倍的技術示例 —— 但我想不到這樣的例子。」

這種顯著的降成本,為初創企業和企業探索新應用提供了重大機遇,這些應用此前由於成本高昂而無法觸及。

模型蒸餾:讓小模型擁有尖端模型功能

OpenAI 此次還引入了模型蒸餾(Model Distillation)。這種整合的工作流程允許開發者使用 o1-preview 和 GPT-4o 等高階模型的輸出,來提高像 GPT-4o mini 這樣更高效模型的效能。
圖片
模型蒸餾涉及使用更強大的模型的輸出來微調更小、更經濟的模型,使它們能夠在特定任務上以更低的成本匹配高階模型的效能。

直到現在,蒸餾一直是一個多步驟、容易出錯的過程,需要開發者手動協調多個操作,從生成資料集到微調模型和測量效能提升。由於蒸餾本質上是迭代的,開發者需要重複執行每一步,增加了顯著的工作量和複雜性。

OpenAI 新模型蒸餾套件包括:

儲存完成:開發者現在可以透過自動捕獲和儲存我們的 API 生成的輸入輸出對,輕鬆地為蒸餾生成資料集,比如 GPT-4o 或 o1-preview。有了儲存完成,你可以輕鬆地使用生產資料構建資料集來評估和微調模型。開發者可以檢視這個整合指南來學習如何選擇儲存完成。

評估(beta):開發者現在可以在我們平臺上建立和執行自定義評估,以測量模型在特定任務上的效能。與手動建立評估指令碼和整合不同的日誌工具相比,評估提供了一種整合的方式來測量模型效能。你可以使用儲存完成的資料或上傳現有資料集來設定你的評估。評估也可以獨立於微調使用,以定量評估模型在用例中的效能。

微調:儲存完成和評估完全整合到我們現有的微調服務中。這意味著開發者可以在他們的微調作業中使用儲存完成建立的資料集,並使用評估在微調模型上執行評估,所有這些都在我們的平臺上完成。

這種方法可以使小型公司利用與高階模型相似的能力,而不必承擔相同的計算成本。它解決了 AI 行業中長期存在的一個分歧,即尖端、資源密集型系統與更易訪問但能力較弱的對應系統之間的分歧。

比如一家小型醫療技術初創公司,該公司正在為農村診所開發一個 AI 驅動的診斷工具。使用模型蒸餾,該公司可以訓練一個緊湊的模型,該模型在標準膝上型電腦或平板電腦上執行時,能夠捕捉到更大模型的大部分診斷能力。這可能會將複雜的 AI 能力帶到資源受限的環境中,有可能改善服務不足地區的醫療保健結果。

總體來說,今年 OpenAI 的開發者大會稍顯低調,甚至可以說是乏善可陳。

要知道,2023 年 DevDay 開發者大會上,OpenAI 推出了 GPT Store 和自定義 GPT 建立工具,不少網友將其稱為「iPhone 時刻」。

這似乎也意味著,OpenAI 正進行戰略轉變,優先考慮生態系統的發展,而不是僅釋出吸引人眼球的重磅產品。

參考連結:
https://venturebeat.com/ai/openai-devday-2024-4-major-updates-that-will-make-ai-more-accessible-and-affordable/
https://x.com/sama/status/1841191074003341798

相關文章