GPT 論文作者 Alec Radford 離開 OpenAI，曾參與開發 Whisper；閃極 AI 拍照眼鏡支援全天候記錄

RTE开发者社区發表於2024-12-20

原文網址 : https://testerhome.com/topics/41177

開發者朋友們大家好：

這裡是 「RTE 開發者日報」 ，每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@SSN，@ 鮑勃

01 有話題的新聞

1、GPT 系列開創者，人工智慧大神 Alec Radford 從 OpenAI 離職

Alec Radford，於週四向同事宣佈，他將離職並獨立從事研究。據一位看到 Radford 離職訊息的人透露，他計劃與 OpenAI 以及其他人工智慧開發者展開合作。

Alec Radford 不僅是 OpenAI 的核心人物，更是改變自然語言處理（NLP）遊戲規則的關鍵推手。作為 GPT 系列模型的主創之一，他推動了從語言到影像再到多模態 AI 技術的全面革新。2016 年，Radford 加入剛剛成立的 OpenAI，並迅速成為該組織的核心研究員之一。在 OpenAI，他開啟了一段傳奇旅程：

GPT：重塑自然語言處理

Radford 是 GPT（Generative Pre-trained Transformer）初代論文的第一作者，首次提出基於 Transformer 架構的預訓練語言模型。他的研究表明，透過在海量無標籤文字上進行預訓練，再透過少量任務資料進行微調，模型可以在多個任務上展現出強大的泛化能力。這一突破直接引領了 NLP 從任務專屬模型向通用模型的轉變

隨後的 GPT-2 和 GPT-3 更是將這一理念推向極致。透過大規模引數和資料的加持，這些模型不僅在生成文字的連貫性和上下文理解上達到了新的高度，還實現了少樣本學習（Few-Shot Learning）的能力，徹底改變了行業對大規模預訓練模型的認知

DALL-E 和 CLIP：文字與視覺的融合

在語言之外，Radford 還深入探索了多模態領域。他主導了 DALL-E 和 CLIP 的開發：

• DALL-E 是一款可以將文字描述轉化為高質量影像的生成模型。這一技術展示了 Transformer 架構在跨模態任務中的潛力，進一步拉近了自然語言和視覺處理的距離

• CLIP 則透過對比學習（Contrastive Learning）方法，打破了傳統分類模型的限制，使得影像和文字可以在共享空間中表達。這不僅提升了模型的多樣性和適應性，也為下游任務提供了前所未有的靈活性

Whisper：讓機器「聽懂」世界

除了語言和影像，Radford 還涉足了語音領域。他開發的 Whisper 是一款通用語音識別模型，不僅能聽懂多語言內容，還能處理各種口音和語速的語音輸入，被認為是目前最強大的語音識別工具之一。（@AI 寒武紀）

2、OpenAI 展示全新桌面版 ChatGPT

今天凌晨，OpenAI 釋出會重點展示了桌面版 ChatGPT 與 Mac 應用的深度整合能力。

據官方介紹，全新桌面版 ChatGPT 將超越單純的問答，能夠透過與 30 多種應用協作來輔助提升使用者的寫作和程式設計能力。同時也放出了所支援的程式名單，如 Apple Notes、Notion、Xcode、VS Code、Warp 等應用程式程式。

使用方式十分簡單，使用者只需確保目標應用正在執行，然後在 ChatGPT 聊天欄中點選「與應用協作」（Work With Apps）按鈕並選擇相應應用即可。

目前，上述提到的新功能已在 macOS ChatGPT 最新版本中上線，而 Windows 版本很快也會推出。釋出會最後，OpenAI CPO Kevin Weil 還預告明天將會發布「令人興奮」的新產品。(@ APPSO)

3、Google 版 o1 重磅推出

今天凌晨，Google 重磅推出了 Gemini 2.0 Flash Thinking 模型。

新的 Thinking 模型支援多模態推理，使用類似 o1 模型的慢思維思考方式，可以深度視覺化展示整個思維鏈過程，尤其是在執行數學、程式設計等複雜問題方面，能持續輸出全部推理過程，而不是直接給出答案。

據悉，在大模型排行榜 LMSYS 上，所有綜合類別指標中顯示，目前 Gemini 2.0 Flash Thinking 排名第一，包括數學、程式碼、指令跟隨、長 QA、創意寫作等等各方面。

目前在 Google AI Studio 就可以免費使用 Gemini 2.0 Flash Thinking。(@ APPSO)

02 有亮點的產品

1、Runway 更新重磅功能：支援插入中間幀控制影片生成

Runway 平臺迎來了一個重要更新，使用者現在不僅可以在影片生成中選擇首尾幀，還可以插入中間幀來進行控制。

此前，許多使用者一直期待這一關鍵幀功能，藉助這一新特性，使用者能夠在影片製作過程中有更多的創作自由和靈活性。

具體來說，大家在圖生影片功能中，除了上傳首尾幀兩張圖，還可以增加中間幀，讓生成的影片畫面更為豐富和協調。（@AIbase 基地）

2、YC 支援的 CozmoX AI 推出語音 AI 員工平臺!

Y Combinator 畢業生 CozmoX AI 今天宣佈在中東和非洲推出首個企業級 AI 員工平臺，該平臺具有先進的語音互動功能。這些 AI 員工是成熟的數字勞動力成員，能夠端到端處理完整的業務流程，同時透過阿拉伯方言、英語、西班牙語、法語、德語、印地語和 70 多種其他語言透過語音自然交流。

CozmoX AI 的誕生源於創始人在應對 AI 工具擴充套件挑戰方面的親身經歷，經過幾個月的潛伏，團隊與金融服務、醫療保健、電子商務、房地產和物流行業的企業客戶一起對其 AI 員工進行了嚴格測試。該平臺的企業級架構確保與現有業務系統的無縫整合、強大的安全協議以及可擴充套件的部署選項（包括本地和雲端部署），覆蓋中東、非洲、東南亞和印度，目前已有多家客戶在歐洲、海灣合作委員會和美國全面運營。

與傳統自動化工具不同，CozmoX AI 的員工是完全數字化的員工，他們獨立管理整個業務流程。透過創新的無程式碼平臺，企業可以部署這些 AI 員工來處理通常需要人工協調和溝通的複雜任務，從潛在客戶生成和銷售成交到付款收集和客戶支援。

該公司推出了三名專業的 AI 員工，每個員工都能夠管理各自領域的端到端流程：

人工智慧銷售主管 Liza：管理從勘探到成交的整個銷售週期，查詢潛在客戶的詳細資訊，包括電話號碼、電子郵件和他們感興趣的內容，對潛在客戶進行深入研究，進行自然語音對話以確定潛在客戶資格、進行談判和跟進，同時維護詳細的 CRM 記錄。

人工智慧債務催收員 Alex：負責整個催收流程，從初次聯絡到付款確認，管理付款計劃和後續行動，同時確保完全遵守法規。

人工智慧接待員 Zara：提供全面的前臺管理，處理從呼叫路由和預約安排到詳細留言和客戶諮詢解決等所有事務。該地區一些最大的醫療保健提供商已部署 Zara 來自動化他們的接待員服務。(@ wamda)

3、閃極推出國內首款 999 元 AI 眼鏡：30g 重量挑戰可穿戴新賽道

閃極科技於 12 月 19 日晚釋出國內首款量產 AI 眼鏡——閃極 AI「拍拍鏡」，起售價 999 元，正式打響 AI 眼鏡量產第一槍。產品預計將於2025年1月15日開始發貨，目前已在各大電商平臺開啟預售。

這款眼鏡採用經典黑框設計，透過電池後置技術和創新散熱設計，將整機重量控制在 50g，實際佩戴體感僅約 30g。硬體配置方面，搭載索尼 1600 萬畫素攝像頭，配備瑞聲科技 Hi-Fi 揚聲器，內建三塊共 1350mAh 容量電池，並推出 6500mAh 的專用增程環，可實現反向為手機充電。

在軟體層面，閃極 A1 執行自研的 Loomo OS 系統，已接入包括雲天勵飛、訊飛、通義千問在內的多個大模型，支援語音識別、實時翻譯等 AI 功能。透過內建的 AI 應用商店（Agent Store），使用者可以呼叫更多 AI 能力。

閃極創始人兼 CEO 張波表示，目前產品核心功能已趨於完備，未來將透過線上升級實現時光回溯、直播推流等更多功能。他強調，AI 眼鏡作為記錄使用者全量互動資料的載體，有望幫助使用者構建個人數字分身，實現跨越時空的溝通。

為吸引早期使用者，閃極推出了多項促銷活動，包括贈送價值 299 元的「AI 雲盤 +AI 閃記」一年使用權益，以及 90 天無理由退貨、打卡返全款代金券等優惠政策。該產品已與 LOHO 等品牌達成合作，將透過京東、天貓、抖音等主流平臺銷售。（@AIbase 基地）

03 有態度的觀點

1、微軟 CEO 納德拉：C 端 Agent 商業模式仍需摸索，廣告流量模式或面臨轉變，B 端關鍵在生態整合

微軟 CEO Satya Nadella 在近日與矽谷知名投資人 Brad Gerstner 以及 Bill Gurley 討論了微軟的戰略轉型、對 OpenAI 投資以及智慧體（Agent）的未來。

Nadella 認為，當前 AI 領域的競爭將不再是贏家通吃，而是多個企業在不同層次的技術領域展開激烈角逐。特別是在基礎設施（如雲端計算）和應用（如 AI 模型）之間，他認為微軟的 Azure 和其他雲服務將在未來的 AI 競爭中佔據重要位置。

智慧體（Agent）被視為比傳統搜尋引擎更為智慧和個性化的工具，不再是簡單的無狀態查詢工具，而是能夠保持狀態、記住使用者歷史並提供持續的互動。Satya Nadella 提到，隨著消費者對 AI 的需求增加，傳統搜尋引擎（如 Bing）面臨新挑戰，未來將見證從傳統搜尋到基於 AI 的問答系統的轉變。

智慧體的出現可能打破了傳統搜尋引擎的界限，能夠提供直接的答案，而不僅僅是連結，改變了使用者的互動方式。透過 ChatGPT 和類似的工具，使用者不再需要透過多次查詢來獲得答案，而是能得到更加即時和智慧的反饋。

對於消費者端，智慧體的商業模式仍在摸索中，傳統的廣告和流量驅動模式可能需要轉變，尤其是在智慧體能夠透過簡化的對話來獲取和處理資料的情況下。

企業級的智慧體介面可能會變得更加重要，微軟已經在利用 AI 接入多個系統，如 Adobe、SAP 和自家的 CRM（Dynamics）。這種介面可以幫助 AI 獲取和整合企業資料，進而提供更高效的服務。（@ 有新 Newin）

更多 Voice Agent 學習筆記：

Gemini 2.0 來了，這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語，Speak 為何能估值 10 億美元？丨 Voice Agent 學習筆記

市場規模超 60 億美元，語音如何改變對話式 AI？

2024 語音模型前沿研究整理，Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心，這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI，他是如何思考語音 AI 的未來？

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命：未來，消費者更可能傾向於與 AI 溝通，而非人工客服

語音 AI 迎來爆發期，也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first，閉關做一款語音產品的思考｜社群來稿

寫在最後：

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創，感興趣的朋友請透過開發者社群或公眾號留言聯絡，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、專案、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

剛剛，OpenAI元老級研究員Alec Radford離職，他主導了GPT-1、GPT-2的研發
2024-12-20
OpenAIGPT
沒有博士學位卻開啟了GPT時代，奧特曼盛讚Alec Radford，愛因斯坦級天才
2025-01-01
GPT奧特曼
論文記錄
2024-03-05
openai GPT引數（入參）使用總結
2024-04-28
OpenAIGPT
Flutter 混合開發實戰問題記錄（一）FlutterView閃爍
2019-02-27
FlutterView
開發記錄
2018-08-12
論文拆解：GPT-RE
2024-08-24
GPT
DeepMind又損大將，AI總監Nando de Freitas離職，曾領導開發Gato、Genie
2024-09-15
AINaN
論文速讀記錄 - 202409
2024-09-29
利用FastAPI和OpenAI-Whisper打造高效的語音轉錄服務
2024-07-17
ASTAPIOpenAI
GPT記錄-1
2024-06-14
GPT
查論文作者的網站
2018-04-26
網站
論文發表難，OpenAI又有高管走了，還發了篇長文
2024-10-24
OpenAI
AI寒冬論作者再發文：「深」度學習對資料的理解太「淺」了
2019-04-19
AI
OpenAI的ChatGPT與GPT3區別？
2022-12-04
OpenAIChatGPT
測試開發工作者的日記：2020.6.3
2020-06-12
[新手開發記錄] 從測試開始開發
2020-05-23
論文筆記[4] GPT 1-3 梳理和對比
2020-12-22
筆記GPT
OpenHarmony SystemUI開發記錄
2023-04-20
SystemUI
iOS節拍器開發
2018-11-07
iOS
Meta 公佈首款 AR 眼鏡 Orion，成本 1 萬美元；OpenAI CTO Mira Murati 離職丨 RTE 開發者日報
2024-09-26
OpenAI開發者日報
論萌新開發與大佬開發的不同？
2019-04-11
記一次基於雲服務開發文件線上編輯系統的開發記錄，支援版本記錄、可增加批註。
2021-03-08
uniapp開發踩坑記錄
2019-02-12
APP
學習記錄-----關於下載的PDF參考文獻（論文）無法編輯的問題
2021-01-02
沒有等來OpenAI開源GPT-4o，等來了開源版VITA
2024-08-14
OpenAIGPT
【開發記錄】Linux常用命令記錄（一）
2019-09-12
Linux
CVPR 2019收錄論文ID公開，你上榜了嗎？
2019-02-26
重返谷歌的Transformer作者，開始掌管Gemini AI
2024-08-23
谷歌ORMAI
這位《復仇者聯盟》系列的幕後英雄，也曾參與過遊戲大作的開發
2019-04-26
遊戲
《Python機器學習》作者科普長文：從頭構建類GPT文字分類器，程式碼開源
2024-09-28
Python機器學習GPT文字分類
測試開發工作者的日記：2020.6.6-6.9
2020-06-16
測試開發工作者的日記：2020.6.4-6.5
2020-06-13
Android開發高手課-張紹文-極客時間
2019-04-25
Android
AI studio開發困難雜記
2024-09-21
AI
與 Taro 團隊核心開發兼運營的一次 CSS 佈局討論的記錄
2021-12-30
CSS
Android 多渠道打包開發記錄
2018-10-11
Android
個人部落格開發記錄
2019-03-19

GPT 論文作者 Alec Radford 離開 OpenAI，曾參與開發 Whisper；閃極 AI 拍照眼鏡支援全天候記錄

01 有話題的新聞

02 有亮點的產品

03 有態度的觀點

相關文章