Open main menu
IT人
乏善可陳的第二屆OpenAI開發者大會,果然沒有掀起太大波瀾
机器之心
發表於
2024-10-02
原文網址 :
https://www.jiqizhixin.com/articles/2024-10-02-3
OpenAI
OpenAI宮鬥後的 DevDay 開發者大會,沒有什麼驚喜。
OpenAI 的宮斗大戲剛落下帷幕,今日凌晨就在舊金山召開了第二屆 DevDay 開發者大會。
不過,與去年盛大的活動相比,今年略顯低調,他們沒有推出重大產品,而是選擇對其現有的 AI 工具和 API 進行增量改進。
在這次活動中,OpenAI 釋出了四大API新功能:視覺微調(Vision Fine-Tuning)、實時 API(Realtime API)、模型蒸餾(Model Distillation)和提示快取(Prompt Caching)。
這些新工具突出了 OpenAI 的戰略轉變,即轉向賦予其開發者生態系統更多能力,而不是直接在終端使用者應用領域競爭。
Sam Altman 也在 X 上表示,從 GPT-4 到 4o mini,每個 token 的成本降低 98%,同時處理 token 的數量暴漲 50 倍。
最後,Altman 還不忘「鼓舞士氣」:通往 AGI 的道路從未如此清晰。
實時 API:構建快速的語音到語音體驗
OpenAI 在開發者大會上正式推出實時 API 的公測版,允許所有付費開發者在他們的應用程式中構建低延遲、多模態的體驗。
與 ChatGPT 的高階語音模式類似,實時 API 支援使用 API 中已經支援的 6 種預設語音進行自然的語音到語音對話。這意味著開發者可以開始將 ChatGPT 的語音控制新增到應用程式中。
他們還推出了聊天完成 API(Chat Completions API)中的音訊輸入和輸出功能,以支援那些不需要實時 API 低延遲優勢的使用場景。
以前,要建立類似的語音助手體驗,開發者需要使用像 Whisper 這樣的自動語音識別模型來轉錄音訊,然後將文字傳遞給文字模型進行推理,最後使用文字到語音模型播放模型的輸出。這種方法常常導致情感和口音的丟失,以及明顯的延遲。
現在有了聊天完成 API,開發者可以用一個 API 呼叫來處理整個流程,儘管它仍然比人類對話慢。實時 API 透過直接流式傳輸音訊輸入和輸出來改進這一點,使得會話體驗更加自然。它還可以自動處理中斷,就像 ChatGPT 中的高階語音模式一樣。
實時 API 本質上簡化了構建語音助手和其他會話 AI 工具的過程,消除了將多個模型組合用於轉錄、推理和文字到語音轉換的需要。
例如,一個名為 Speak 的語言學習平臺,使用實時 API 來驅動其角色扮演功能,鼓勵使用者練習用新語言進行對話。
實時 API 使用文字和音訊 token 價格也已出爐。
文字輸入 token 的價格是每 100 萬個 5 美元,輸出 token 每 100 萬個 20 美元。
音訊輸入的價格是每 100 萬個 100 美元,輸出是每 100 萬個 200 美元。這相當於每分鐘音訊輸入約 0.06 美元,每分鐘音訊輸出約 0.24 美元。
對於希望建立基於語音的應用程式的開發者來說,這個價格還是比較公道的。
視覺微調:使用影像和文字微調 GPT-4o
自從 OpenAI 在 GPT-4o 上首次引入微調功能以來,已經有成千上萬的開發者使用僅限文字的資料集定製模型,以提高特定任務的效能。然而,在許多情況下,僅對文字進行模型微調並不能提供預期的效能提升。
因此,此次 OpenAI 宣佈為 GPT-4o 引入視覺微調功能,允許開發者使用影像和文字來自定義模型的視覺理解能力,從而實現增強的視覺搜尋功能、改進自動駕駛汽車或智慧城市的物體檢測,以及更準確的醫學影像分析等應用。
例如,東南亞的一家食品配送和共享出行公司 Grab 已經利用這項技術來改進其地圖服務。僅使用 100 個示例的視覺微調,Grab 在車道計數準確率上提高了 20%,在限速標誌定位上提升了 13%,超過了基礎 GPT-4o 模型。
這一現實世界的應用展示了視覺微調的可能性,即使用少量的視覺訓練資料,也能顯著增強各行各業的人工智慧服務。
目前,所有付費使用者都可以使用視覺微調功能,直到 2024 年 10 月 31 日,OpenAI 每天為開發者提供免費的 100 萬個訓練 token,用於透過影像微調 GPT-4o 模型。
2024 年 10 月 31 日之後,微調 GPT-4o 模型的費用將是每 100 萬個 token 25 美元,推理的費用是每 100 萬個輸入 token 3.75 美元,每 100 萬個輸出 token 15 美元。
提示快取:成本可降低50%
許多開發者在構建 AI 應用程式時會在多個 API 呼叫中重複使用相同的上下文,比如在編輯程式碼庫或與聊天機器人進行長時間、多輪次的對話時。
今天,OpenAI 引入了提示快取(Prompt Caching),這是一個旨在降低開發者成本和延遲的功能。
該系統會自動對模型最近處理過的輸入 tokens 應用打 50% 的折扣,對於頻繁重複使用上下文的應用來說,這可能會帶來成本的大幅降低。
提示快取將自動應用於最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini,以及這些模型的微調版本。
(來源:OpenAI)
OpenAI 在 2024 DevDay 上公佈的定價表顯示,AI 模型使用成本大幅降低,快取輸入 tokens 相比未快取 tokens 在各種 GPT 模型中最多可節省 50% 的費用。新的 o1 模型展示了其高階功能的溢價定價。
「我們一直很忙,」OpenAI 平臺產品負責人奧利維爾・戈德蒙特(Olivier Godement)在公司舊金山總部舉行的小型新聞釋出會上說,「就在兩年前,GPT-3 還處於領先地位。現在,我們已經將成本降低了近 1000 倍。我試圖想出一個在兩年內將成本降低了近 1000 倍的技術示例 —— 但我想不到這樣的例子。」
這種顯著的降成本,為初創企業和企業探索新應用提供了重大機遇,這些應用此前由於成本高昂而無法觸及。
模型蒸餾:讓小模型擁有尖端模型功能
OpenAI 此次還引入了模型蒸餾(Model Distillation)。這種整合的工作流程允許開發者使用 o1-preview 和 GPT-4o 等高階模型的輸出,來提高像 GPT-4o mini 這樣更高效模型的效能。
模型蒸餾涉及使用更強大的模型的輸出來微調更小、更經濟的模型,使它們能夠在特定任務上以更低的成本匹配高階模型的效能。
直到現在,蒸餾一直是一個多步驟、容易出錯的過程,需要開發者手動協調多個操作,從生成資料集到微調模型和測量效能提升。由於蒸餾本質上是迭代的,開發者需要重複執行每一步,增加了顯著的工作量和複雜性。
OpenAI 新模型蒸餾套件包括:
儲存完成:開發者現在可以透過自動捕獲和儲存我們的 API 生成的輸入輸出對,輕鬆地為蒸餾生成資料集,比如 GPT-4o 或 o1-preview。有了儲存完成,你可以輕鬆地使用生產資料構建資料集來評估和微調模型。開發者可以檢視這個整合指南來學習如何選擇儲存完成。
評估(beta):開發者現在可以在我們平臺上建立和執行自定義評估,以測量模型在特定任務上的效能。與手動建立評估指令碼和整合不同的日誌工具相比,評估提供了一種整合的方式來測量模型效能。你可以使用儲存完成的資料或上傳現有資料集來設定你的評估。評估也可以獨立於微調使用,以定量評估模型在用例中的效能。
微調:儲存完成和評估完全整合到我們現有的微調服務中。這意味著開發者可以在他們的微調作業中使用儲存完成建立的資料集,並使用評估在微調模型上執行評估,所有這些都在我們的平臺上完成。
這種方法可以使小型公司利用與高階模型相似的能力,而不必承擔相同的計算成本。它解決了 AI 行業中長期存在的一個分歧,即尖端、資源密集型系統與更易訪問但能力較弱的對應系統之間的分歧。
比如一家小型醫療技術初創公司,該公司正在為農村診所開發一個 AI 驅動的診斷工具。使用模型蒸餾,該公司可以訓練一個緊湊的模型,該模型在標準膝上型電腦或平板電腦上執行時,能夠捕捉到更大模型的大部分診斷能力。這可能會將複雜的 AI 能力帶到資源受限的環境中,有可能改善服務不足地區的醫療保健結果。
總體來說,今年 OpenAI 的開發者大會稍顯低調,甚至可以說是乏善可陳。
要知道,2023 年 DevDay 開發者大會上,OpenAI 推出了 GPT Store 和自定義 GPT 建立工具,不少網友將其稱為「iPhone 時刻」。
這似乎也意味著,OpenAI 正進行戰略轉變,優先考慮生態系統的發展,而不是僅釋出吸引人眼球的重磅產品。
參考連結:
https://venturebeat.com/ai/openai-devday-2024-4-major-updates-that-will-make-ai-more-accessible-and-affordable/
https://x.com/sama/status/1841191074003341798
相關文章
2018 第二屆看雪安全開發者峰會 | 徵集贊助商
2018-03-07
《第五屆中國CSSConf開發者大會》參會總結
2019-04-10
CSS
落地有聲·第二屆零信任使用者分享大會,10月28日見!
2022-10-14
大會沒看夠?2021 Google 開發者大會總結看這裡!
2021-12-08
Go
邊吃瓜,邊看看百度這屆開發者大會有什麼亮點
2019-07-03
重磅啟動!第 17 屆「中國 Linux 核心開發者大會」徵稿
2022-09-14
Linux
TDengine 3.0 重磅釋出,首屆開發者大會圓滿結束
2022-08-13
TDengine 3.0 重磅釋出,首屆 TDengine 開發者大會圓滿落幕
2022-08-15
攜手開發者共建雲生態 首屆騰訊雲+社群開發者大會在京舉辦
2018-12-15
夢想再度啟航,第二屆HarmonyOS開發者創新大賽正式啟動
2021-10-22
WMC2023第二屆世界元宇宙大會在上海開幕
2023-09-21
元宇宙
4.22北京 | 第二屆開源雲原生開發者日重磅來襲
2023-04-25
Google 2019開發者大會
2019-09-11
Go
2019 AI開發者大會
2019-08-14
AI
第二屆網易前端技術大會-啟航
2019-01-31
前端
這屆618:掀起直播盛世
2020-06-12
教資成績出來了,果然沒有全過
2024-11-09
“碼”上贏門票——TDengine開發者大會購票福利第二彈
2022-07-21
Android 在 Google 開發者大會上釋出了哪些更新? | Google 開發者大會 2018
2018-09-21
Android
Go
給技術管理者推薦個活動——第二屆SMART科技大會
2018-11-23
騰訊WeGame首屆開發者大會,助力國產遊戲翼起築夢
2019-05-11
GAM
遊戲
第二屆中國大資料國際峰會2017
2018-03-19
大資料
議程預告 | 第二屆 全球DevSecOps敏捷安全大會
2022-12-24
dev
敏捷
Google開發者大會:為中國開發者和消費者推出新的工具
2018-09-20
Go
Google I/O 2022開發者大會
2022-05-12
Go
2019第二屆上海人工智慧大會 暨第二屆影像、視訊處理與人工智慧國際會議在浦東隆重召開
2019-08-26
人工智慧
2018谷歌I/O開發者大會8大看點彙總 新品有哪些
2018-05-09
谷歌
【了不起的開發者】華為開發者大會2020(Together)已向你發來邀請~
2020-08-08
首屆世界智慧大會今日開幕
2018-03-26
AES 2021第二屆中國國際汽車乙太網峰會將於5月在滬盛大召開
2021-04-08
高能有料 | 第二屆OpenHarmony技術大會議程速遞
2023-11-02
2018 Google 開發者大會精彩回顧
2018-09-22
Go
帶你逛 2019 Google 開發者大會
2019-09-13
Go
Google 2020開發者大會Flutter專題
2020-11-20
Go
Flutter
匯聚全國高校最高水平開發者,首屆大學生VRAR開發大賽落幕
2018-04-10
VR
2021年第二屆電力人工智慧大會將於9月在杭州召開
2021-07-02
人工智慧
加州河濱分校:研究發現太可愛會讓大腦產生破壞的衝動
2019-01-02
安全開發·數智未來 | vivo,助力第七屆安全開發者峰會(2023 SDC)
2023-10-07