GPT 論文作者 Alec Radford 離開 OpenAI,曾參與開發 Whisper;閃極 AI 拍照眼鏡支援全天候記錄
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。 我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、GPT 系列開創者,人工智慧大神 Alec Radford 從 OpenAI 離職
Alec Radford,於週四向同事宣佈,他將離職並獨立從事研究。據一位看到 Radford 離職訊息的人透露,他計劃與 OpenAI 以及其他人工智慧開發者展開合作。
Alec Radford 不僅是 OpenAI 的核心人物,更是改變自然語言處理(NLP)遊戲規則的關鍵推手。作為 GPT 系列模型的主創之一,他推動了從語言到影像再到多模態 AI 技術的全面革新。2016 年,Radford 加入剛剛成立的 OpenAI,並迅速成為該組織的核心研究員之一。在 OpenAI,他開啟了一段傳奇旅程:
GPT:重塑自然語言處理
Radford 是 GPT(Generative Pre-trained Transformer)初代論文的第一作者,首次提出基於 Transformer 架構的預訓練語言模型。他的研究表明,透過在海量無標籤文字上進行預訓練,再透過少量任務資料進行微調,模型可以在多個任務上展現出強大的泛化能力。這一突破直接引領了 NLP 從任務專屬模型向通用模型的轉變
隨後的 GPT-2 和 GPT-3 更是將這一理念推向極致。透過大規模引數和資料的加持,這些模型不僅在生成文字的連貫性和上下文理解上達到了新的高度,還實現了少樣本學習(Few-Shot Learning)的能力,徹底改變了行業對大規模預訓練模型的認知
DALL-E 和 CLIP:文字與視覺的融合
在語言之外,Radford 還深入探索了多模態領域。他主導了 DALL-E 和 CLIP 的開發:
• DALL-E 是一款可以將文字描述轉化為高質量影像的生成模型。這一技術展示了 Transformer 架構在跨模態任務中的潛力,進一步拉近了自然語言和視覺處理的距離
• CLIP 則透過對比學習(Contrastive Learning)方法,打破了傳統分類模型的限制,使得影像和文字可以在共享空間中表達。這不僅提升了模型的多樣性和適應性,也為下游任務提供了前所未有的靈活性
Whisper:讓機器「聽懂」世界
除了語言和影像,Radford 還涉足了語音領域。他開發的 Whisper 是一款通用語音識別模型,不僅能聽懂多語言內容,還能處理各種口音和語速的語音輸入,被認為是目前最強大的語音識別工具之一。(@AI 寒武紀)
2、OpenAI 展示全新桌面版 ChatGPT
今天凌晨,OpenAI 釋出會重點展示了桌面版 ChatGPT 與 Mac 應用的深度整合能力。
據官方介紹,全新桌面版 ChatGPT 將超越單純的問答,能夠透過與 30 多種應用協作來輔助提升使用者的寫作和程式設計能力。同時也放出了所支援的程式名單,如 Apple Notes、Notion、Xcode、VS Code、Warp 等應用程式程式。
使用方式十分簡單,使用者只需確保目標應用正在執行,然後在 ChatGPT 聊天欄中點選「與應用協作」(Work With Apps)按鈕並選擇相應應用即可。
目前,上述提到的新功能已在 macOS ChatGPT 最新版本中上線,而 Windows 版本很快也會推出。釋出會最後,OpenAI CPO Kevin Weil 還預告明天將會發布「令人興奮」的新產品。(@ APPSO)
3、Google 版 o1 重磅推出
今天凌晨,Google 重磅推出了 Gemini 2.0 Flash Thinking 模型。
新的 Thinking 模型支援多模態推理,使用類似 o1 模型的慢思維思考方式,可以深度視覺化展示整個思維鏈過程,尤其是在執行數學、程式設計等複雜問題方面,能持續輸出全部推理過程,而不是直接給出答案。
據悉,在大模型排行榜 LMSYS 上,所有綜合類別指標中顯示,目前 Gemini 2.0 Flash Thinking 排名第一,包括數學、程式碼、指令跟隨、長 QA、創意寫作等等各方面。
目前在 Google AI Studio 就可以免費使用 Gemini 2.0 Flash Thinking。(@ APPSO)
02 有亮點的產品
1、Runway 更新重磅功能:支援插入中間幀控制影片生成
Runway 平臺迎來了一個重要更新,使用者現在不僅可以在影片生成中選擇首尾幀,還可以插入中間幀來進行控制。
此前,許多使用者一直期待這一關鍵幀功能,藉助這一新特性,使用者能夠在影片製作過程中有更多的創作自由和靈活性。
具體來說,大家在圖生影片功能中,除了上傳首尾幀兩張圖,還可以增加中間幀,讓生成的影片畫面更為豐富和協調。(@AIbase 基地)
2、YC 支援的 CozmoX AI 推出語音 AI 員工平臺!
Y Combinator 畢業生 CozmoX AI 今天宣佈在中東和非洲推出首個企業級 AI 員工平臺,該平臺具有先進的語音互動功能。這些 AI 員工是成熟的數字勞動力成員,能夠端到端處理完整的業務流程,同時透過阿拉伯方言、英語、西班牙語、法語、德語、印地語和 70 多種其他語言透過語音自然交流。
CozmoX AI 的誕生源於創始人在應對 AI 工具擴充套件挑戰方面的親身經歷,經過幾個月的潛伏,團隊與金融服務、醫療保健、電子商務、房地產和物流行業的企業客戶一起對其 AI 員工進行了嚴格測試。該平臺的企業級架構確保與現有業務系統的無縫整合、強大的安全協議以及可擴充套件的部署選項(包括本地和雲端部署),覆蓋中東、非洲、東南亞和印度,目前已有多家客戶在歐洲、海灣合作委員會和美國全面運營。
與傳統自動化工具不同,CozmoX AI 的員工是完全數字化的員工,他們獨立管理整個業務流程。透過創新的無程式碼平臺,企業可以部署這些 AI 員工來處理通常需要人工協調和溝通的複雜任務,從潛在客戶生成和銷售成交到付款收集和客戶支援。
該公司推出了三名專業的 AI 員工,每個員工都能夠管理各自領域的端到端流程:
人工智慧銷售主管 Liza:管理從勘探到成交的整個銷售週期,查詢潛在客戶的詳細資訊,包括電話號碼、電子郵件和他們感興趣的內容,對潛在客戶進行深入研究,進行自然語音對話以確定潛在客戶資格、進行談判和跟進,同時維護詳細的 CRM 記錄。
人工智慧債務催收員 Alex:負責整個催收流程,從初次聯絡到付款確認,管理付款計劃和後續行動,同時確保完全遵守法規。
人工智慧接待員 Zara:提供全面的前臺管理,處理從呼叫路由和預約安排到詳細留言和客戶諮詢解決等所有事務。該地區一些最大的醫療保健提供商已部署 Zara 來自動化他們的接待員服務。(@ wamda)
3、閃極推出國內首款 999 元 AI 眼鏡:30g 重量挑戰可穿戴新賽道
閃極科技於 12 月 19 日晚釋出國內首款量產 AI 眼鏡——閃極 AI「拍拍鏡」,起售價 999 元,正式打響 AI 眼鏡量產第一槍。產品預計將於2025年1月15日開始發貨,目前已在各大電商平臺開啟預售。
這款眼鏡採用經典黑框設計,透過電池後置技術和創新散熱設計,將整機重量控制在 50g,實際佩戴體感僅約 30g。硬體配置方面,搭載索尼 1600 萬畫素攝像頭,配備瑞聲科技 Hi-Fi 揚聲器,內建三塊共 1350mAh 容量電池,並推出 6500mAh 的專用增程環,可實現反向為手機充電。
在軟體層面,閃極 A1 執行自研的 Loomo OS 系統,已接入包括雲天勵飛、訊飛、通義千問在內的多個大模型,支援語音識別、實時翻譯等 AI 功能。透過內建的 AI 應用商店(Agent Store),使用者可以呼叫更多 AI 能力。
閃極創始人兼 CEO 張波表示,目前產品核心功能已趨於完備,未來將透過線上升級實現時光回溯、直播推流等更多功能。他強調,AI 眼鏡作為記錄使用者全量互動資料的載體,有望幫助使用者構建個人數字分身,實現跨越時空的溝通。
為吸引早期使用者,閃極推出了多項促銷活動,包括贈送價值 299 元的「AI 雲盤 +AI 閃記」一年使用權益,以及 90 天無理由退貨、打卡返全款代金券等優惠政策。該產品已與 LOHO 等品牌達成合作,將透過京東、天貓、抖音等主流平臺銷售。(@AIbase 基地)
03 有態度的觀點
1、微軟 CEO 納德拉:C 端 Agent 商業模式仍需摸索,廣告流量模式或面臨轉變,B 端關鍵在生態整合
微軟 CEO Satya Nadella 在近日與矽谷知名投資人 Brad Gerstner 以及 Bill Gurley 討論了微軟的戰略轉型、對 OpenAI 投資以及智慧體(Agent)的未來。
Nadella 認為,當前 AI 領域的競爭將不再是贏家通吃,而是多個企業在不同層次的技術領域展開激烈角逐。特別是在基礎設施(如雲端計算)和應用(如 AI 模型)之間,他認為微軟的 Azure 和其他雲服務將在未來的 AI 競爭中佔據重要位置。
智慧體(Agent)被視為比傳統搜尋引擎更為智慧和個性化的工具,不再是簡單的無狀態查詢工具,而是能夠保持狀態、記住使用者歷史並提供持續的互動。Satya Nadella 提到,隨著消費者對 AI 的需求增加,傳統搜尋引擎(如 Bing)面臨新挑戰,未來將見證從傳統搜尋到基於 AI 的問答系統的轉變。
智慧體的出現可能打破了傳統搜尋引擎的界限,能夠提供直接的答案,而不僅僅是連結,改變了使用者的互動方式。透過 ChatGPT 和類似的工具,使用者不再需要透過多次查詢來獲得答案,而是能得到更加即時和智慧的反饋。
對於消費者端,智慧體的商業模式仍在摸索中,傳統的廣告和流量驅動模式可能需要轉變,尤其是在智慧體能夠透過簡化的對話來獲取和處理資料的情況下。
企業級的智慧體介面可能會變得更加重要,微軟已經在利用 AI 接入多個系統,如 Adobe、SAP 和自家的 CRM(Dynamics)。這種介面可以幫助 AI 獲取和整合企業資料,進而提供更高效的服務。(@ 有新 Newin)
更多 Voice Agent 學習筆記:
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服
語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場
下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》
Voice-first,閉關做一款語音產品的思考|社群來稿
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 剛剛,OpenAI元老級研究員Alec Radford離職,他主導了GPT-1、GPT-2的研發OpenAIGPT
- 論文記錄
- openai GPT引數(入參)使用總結OpenAIGPT
- Flutter 混合開發實戰問題記錄(一)FlutterView閃爍FlutterView
- 開發記錄
- 論文拆解:GPT-REGPT
- DeepMind又損大將,AI總監Nando de Freitas離職,曾領導開發Gato、GenieAINaN
- 論文速讀記錄 - 202409
- 利用FastAPI和OpenAI-Whisper打造高效的語音轉錄服務ASTAPIOpenAI
- GPT記錄-1GPT
- 查論文作者的網站網站
- 論文發表難,OpenAI又有高管走了,還發了篇長文OpenAI
- AI寒冬論作者再發文:「深」度學習對資料的理解太「淺」了AI
- OpenAI的ChatGPT與GPT3區別?OpenAIChatGPT
- 測試開發工作者的日記:2020.6.3
- [新手開發記錄] 從測試開始開發
- 論文筆記[4] GPT 1-3 梳理和對比筆記GPT
- OpenHarmony SystemUI開發記錄SystemUI
- Meta 公佈首款 AR 眼鏡 Orion,成本 1 萬美元;OpenAI CTO Mira Murati 離職丨 RTE 開發者日報OpenAI開發者日報
- iOS節拍器開發iOS
- 論萌新開發與大佬開發的不同?
- 記一次基於雲服務開發文件線上編輯系統的開發記錄,支援版本記錄、可增加批註。
- 沒有等來OpenAI開源GPT-4o,等來了開源版VITAOpenAIGPT
- uniapp開發踩坑記錄APP
- 學習記錄-----關於下載的PDF參考文獻(論文)無法編輯的問題
- 【開發記錄】Linux常用命令記錄(一)Linux
- CVPR 2019收錄論文ID公開,你上榜了嗎?
- 重返谷歌的Transformer作者,開始掌管Gemini AI谷歌ORMAI
- 這位《復仇者聯盟》系列的幕後英雄,也曾參與過遊戲大作的開發遊戲
- 《Python機器學習》作者科普長文:從頭構建類GPT文字分類器,程式碼開源Python機器學習GPT文字分類
- 測試開發工作者的日記:2020.6.6-6.9
- 測試開發工作者的日記:2020.6.4-6.5
- Android開發高手課-張紹文-極客時間Android
- AI studio開發困難雜記AI
- OpenAI公開Dota 2論文:勝率99.4%,「手術」工具連續遷移訓練OpenAI
- 與 Taro 團隊核心開發兼運營的一次 CSS 佈局討論的記錄CSS
- Android 多渠道打包開發記錄Android
- 個人部落格開發記錄