GPT 論文作者 Alec Radford 離開 OpenAI,曾參與開發 Whisper;閃極 AI 拍照眼鏡支援全天候記錄

RTE开发者社区發表於2024-12-20

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。 我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、GPT 系列開創者,人工智慧大神 Alec Radford 從 OpenAI 離職

Alec Radford,於週四向同事宣佈,他將離職並獨立從事研究。據一位看到 Radford 離職訊息的人透露,他計劃與 OpenAI 以及其他人工智慧開發者展開合作。

Alec Radford 不僅是 OpenAI 的核心人物,更是改變自然語言處理(NLP)遊戲規則的關鍵推手。作為 GPT 系列模型的主創之一,他推動了從語言到影像再到多模態 AI 技術的全面革新。2016 年,Radford 加入剛剛成立的 OpenAI,並迅速成為該組織的核心研究員之一。在 OpenAI,他開啟了一段傳奇旅程:

GPT:重塑自然語言處理

Radford 是 GPT(Generative Pre-trained Transformer)初代論文的第一作者,首次提出基於 Transformer 架構的預訓練語言模型。他的研究表明,透過在海量無標籤文字上進行預訓練,再透過少量任務資料進行微調,模型可以在多個任務上展現出強大的泛化能力。這一突破直接引領了 NLP 從任務專屬模型向通用模型的轉變

隨後的 GPT-2 和 GPT-3 更是將這一理念推向極致。透過大規模引數和資料的加持,這些模型不僅在生成文字的連貫性和上下文理解上達到了新的高度,還實現了少樣本學習(Few-Shot Learning)的能力,徹底改變了行業對大規模預訓練模型的認知

DALL-E 和 CLIP:文字與視覺的融合

在語言之外,Radford 還深入探索了多模態領域。他主導了 DALL-E 和 CLIP 的開發:

• DALL-E 是一款可以將文字描述轉化為高質量影像的生成模型。這一技術展示了 Transformer 架構在跨模態任務中的潛力,進一步拉近了自然語言和視覺處理的距離

• CLIP 則透過對比學習(Contrastive Learning)方法,打破了傳統分類模型的限制,使得影像和文字可以在共享空間中表達。這不僅提升了模型的多樣性和適應性,也為下游任務提供了前所未有的靈活性

Whisper:讓機器「聽懂」世界

除了語言和影像,Radford 還涉足了語音領域。他開發的 Whisper 是一款通用語音識別模型,不僅能聽懂多語言內容,還能處理各種口音和語速的語音輸入,被認為是目前最強大的語音識別工具之一。(@AI 寒武紀)

2、OpenAI 展示全新桌面版 ChatGPT

今天凌晨,OpenAI 釋出會重點展示了桌面版 ChatGPT 與 Mac 應用的深度整合能力。

據官方介紹,全新桌面版 ChatGPT 將超越單純的問答,能夠透過與 30 多種應用協作來輔助提升使用者的寫作和程式設計能力。同時也放出了所支援的程式名單,如 Apple Notes、Notion、Xcode、VS Code、Warp 等應用程式程式。

使用方式十分簡單,使用者只需確保目標應用正在執行,然後在 ChatGPT 聊天欄中點選「與應用協作」(Work With Apps)按鈕並選擇相應應用即可。

目前,上述提到的新功能已在 macOS ChatGPT 最新版本中上線,而 Windows 版本很快也會推出。釋出會最後,OpenAI CPO Kevin Weil 還預告明天將會發布「令人興奮」的新產品。(@ APPSO)

3、Google 版 o1 重磅推出

今天凌晨,Google 重磅推出了 Gemini 2.0 Flash Thinking 模型。

新的 Thinking 模型支援多模態推理,使用類似 o1 模型的慢思維思考方式,可以深度視覺化展示整個思維鏈過程,尤其是在執行數學、程式設計等複雜問題方面,能持續輸出全部推理過程,而不是直接給出答案。

據悉,在大模型排行榜 LMSYS 上,所有綜合類別指標中顯示,目前 Gemini 2.0 Flash Thinking 排名第一,包括數學、程式碼、指令跟隨、長 QA、創意寫作等等各方面。

目前在 Google AI Studio 就可以免費使用 Gemini 2.0 Flash Thinking。(@ APPSO)

02 有亮點的產品

1、Runway 更新重磅功能:支援插入中間幀控制影片生成

Runway 平臺迎來了一個重要更新,使用者現在不僅可以在影片生成中選擇首尾幀,還可以插入中間幀來進行控制。

此前,許多使用者一直期待這一關鍵幀功能,藉助這一新特性,使用者能夠在影片製作過程中有更多的創作自由和靈活性。

具體來說,大家在圖生影片功能中,除了上傳首尾幀兩張圖,還可以增加中間幀,讓生成的影片畫面更為豐富和協調。(@AIbase 基地)

2、YC 支援的 CozmoX AI 推出語音 AI 員工平臺!

Y Combinator 畢業生 CozmoX AI 今天宣佈在中東和非洲推出首個企業級 AI 員工平臺,該平臺具有先進的語音互動功能。這些 AI 員工是成熟的數字勞動力成員,能夠端到端處理完整的業務流程,同時透過阿拉伯方言、英語、西班牙語、法語、德語、印地語和 70 多種其他語言透過語音自然交流。

CozmoX AI 的誕生源於創始人在應對 AI 工具擴充套件挑戰方面的親身經歷,經過幾個月的潛伏,團隊與金融服務、醫療保健、電子商務、房地產和物流行業的企業客戶一起對其 AI 員工進行了嚴格測試。該平臺的企業級架構確保與現有業務系統的無縫整合、強大的安全協議以及可擴充套件的部署選項(包括本地和雲端部署),覆蓋中東、非洲、東南亞和印度,目前已有多家客戶在歐洲、海灣合作委員會和美國全面運營。

與傳統自動化工具不同,CozmoX AI 的員工是完全數字化的員工,他們獨立管理整個業務流程。透過創新的無程式碼平臺,企業可以部署這些 AI 員工來處理通常需要人工協調和溝通的複雜任務,從潛在客戶生成和銷售成交到付款收集和客戶支援。

該公司推出了三名專業的 AI 員工,每個員工都能夠管理各自領域的端到端流程:

人工智慧銷售主管 Liza:管理從勘探到成交的整個銷售週期,查詢潛在客戶的詳細資訊,包括電話號碼、電子郵件和他們感興趣的內容,對潛在客戶進行深入研究,進行自然語音對話以確定潛在客戶資格、進行談判和跟進,同時維護詳細的 CRM 記錄。

人工智慧債務催收員 Alex:負責整個催收流程,從初次聯絡到付款確認,管理付款計劃和後續行動,同時確保完全遵守法規。

人工智慧接待員 Zara:提供全面的前臺管理,處理從呼叫路由和預約安排到詳細留言和客戶諮詢解決等所有事務。該地區一些最大的醫療保健提供商已部署 Zara 來自動化他們的接待員服務。(@ wamda)

3、閃極推出國內首款 999 元 AI 眼鏡:30g 重量挑戰可穿戴新賽道

閃極科技於 12 月 19 日晚釋出國內首款量產 AI 眼鏡——閃極 AI「拍拍鏡」,起售價 999 元,正式打響 AI 眼鏡量產第一槍。產品預計將於2025年1月15日開始發貨,目前已在各大電商平臺開啟預售。

這款眼鏡採用經典黑框設計,透過電池後置技術和創新散熱設計,將整機重量控制在 50g,實際佩戴體感僅約 30g。硬體配置方面,搭載索尼 1600 萬畫素攝像頭,配備瑞聲科技 Hi-Fi 揚聲器,內建三塊共 1350mAh 容量電池,並推出 6500mAh 的專用增程環,可實現反向為手機充電。

在軟體層面,閃極 A1 執行自研的 Loomo OS 系統,已接入包括雲天勵飛、訊飛、通義千問在內的多個大模型,支援語音識別、實時翻譯等 AI 功能。透過內建的 AI 應用商店(Agent Store),使用者可以呼叫更多 AI 能力。

閃極創始人兼 CEO 張波表示,目前產品核心功能已趨於完備,未來將透過線上升級實現時光回溯、直播推流等更多功能。他強調,AI 眼鏡作為記錄使用者全量互動資料的載體,有望幫助使用者構建個人數字分身,實現跨越時空的溝通。

為吸引早期使用者,閃極推出了多項促銷活動,包括贈送價值 299 元的「AI 雲盤 +AI 閃記」一年使用權益,以及 90 天無理由退貨、打卡返全款代金券等優惠政策。該產品已與 LOHO 等品牌達成合作,將透過京東、天貓、抖音等主流平臺銷售。(@AIbase 基地)

03 有態度的觀點

1、微軟 CEO 納德拉:C 端 Agent 商業模式仍需摸索,廣告流量模式或面臨轉變,B 端關鍵在生態整合

微軟 CEO Satya Nadella 在近日與矽谷知名投資人 Brad Gerstner 以及 Bill Gurley 討論了微軟的戰略轉型、對 OpenAI 投資以及智慧體(Agent)的未來。

Nadella 認為,當前 AI 領域的競爭將不再是贏家通吃,而是多個企業在不同層次的技術領域展開激烈角逐。特別是在基礎設施(如雲端計算)和應用(如 AI 模型)之間,他認為微軟的 Azure 和其他雲服務將在未來的 AI 競爭中佔據重要位置。

智慧體(Agent)被視為比傳統搜尋引擎更為智慧和個性化的工具,不再是簡單的無狀態查詢工具,而是能夠保持狀態、記住使用者歷史並提供持續的互動。Satya Nadella 提到,隨著消費者對 AI 的需求增加,傳統搜尋引擎(如 Bing)面臨新挑戰,未來將見證從傳統搜尋到基於 AI 的問答系統的轉變。

智慧體的出現可能打破了傳統搜尋引擎的界限,能夠提供直接的答案,而不僅僅是連結,改變了使用者的互動方式。透過 ChatGPT 和類似的工具,使用者不再需要透過多次查詢來獲得答案,而是能得到更加即時和智慧的反饋。

對於消費者端,智慧體的商業模式仍在摸索中,傳統的廣告和流量驅動模式可能需要轉變,尤其是在智慧體能夠透過簡化的對話來獲取和處理資料的情況下。

企業級的智慧體介面可能會變得更加重要,微軟已經在利用 AI 接入多個系統,如 Adobe、SAP 和自家的 CRM(Dynamics)。這種介面可以幫助 AI 獲取和整合企業資料,進而提供更高效的服務。(@ 有新 Newin)

更多 Voice Agent 學習筆記:

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first,閉關做一款語音產品的思考|社群來稿

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章