零一萬物 Yi-Lightning:超越 GPT-4o 衝擊全球榜單;阿里國際 Marco 翻譯大模型釋出丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。
我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、零一萬物新旗艦模型 Yi-Lightning 釋出:LMSYS 測試國產首次超越 GPT-4o,中國第一、世界第六
李開復創辦的 AI 公司零一萬物於 10 月 16 日對外發布新旗艦模型 Yi-Lightning。
在盲測榜單 LMSYS 上,Yi-Lightning 超越 OpenAI、Anthropic 所釋出的 GPT-4o-2024-05-13、 Claude 3.5 Sonnet,排名世界第六,中國第一。
零一萬物表示,這是在 LMSYS 這一全球大模型必爭的公開擂臺上,中國大模型首度實現「超越 OpenAI GPT-4o 」的最佳成績。
模型效能升級之餘,零一萬物宣稱 Yi-Lightning 的推理速度也有提升,首包時間較上半年釋出的 Yi-Large 減少一半,最高生成速度提速近四成。同時,Yi-Lightning 實現了推理成本的進一步下降。
目前 Yi-Lightning 已上線 Yi 大模型開放平臺,每百萬 token 定價 0.99 元。(@IT 之家)
2、谷歌 AI 又闖禍:錯把遊戲開發者個人電話當公司電話公佈致其被騷擾
谷歌搜尋的實驗性 AI 功能「Overview(概述)」再次闖禍,該功能曾因提供錯誤和有害搜尋結果而備受批評,而其最新失誤更是導致了一名遊戲開發者的個人電話號碼被錯誤地公開。
Skybound Games 高階環境藝術家 Rogelio Delgado 在社交媒體 X 上分享了一段他接到一個憤怒的孩子家長電話的經歷,該家長抱怨他在兒子玩的《流放者柯南》中發現了不合適的內容,這是一款 2017 年的 M 級開放世界生存遊戲,由製作《沙丘:覺醒》的 Funcom 工作室開發。該家長稱他透過谷歌搜尋找到了 Delgado 的電話號碼,因為後者曾於八年前在 Funcom 工作過。
經過一番「有點針鋒相對且尷尬的談話」後,該家長最終道歉,解釋稱是他的助手找到了這個號碼,他並不知道 Delgado 已不再在 Funcom 工作。隨後,該家長向 Delgado 傳送了一張截圖,顯示谷歌的 AI Overview 將他的個人電話號碼列為 Funcom 公司的主要辦公電話。
Delgado 對此感到非常憤怒,他稱:「我唯一能想到的這件事發生的原因是,我的簡歷上有我的電話號碼,上面也把我列為 Funcom 的前員工…… 但谷歌人工智慧怎麼會得出這個結論,認為這是位於挪威的公司辦公室的電話號碼…… @GoogleAI 把你們的事情做好。」
有網友發現,谷歌 AI 實際上是從錯誤的商業平臺 LeadIQ 上獲取了這個電話號碼,谷歌應該從 Funcom 的公開聯絡資訊頁面獲取正確的資訊。
這並不是谷歌的 AI 首次引發爭議,今年早些時候 Overview 功能曾因提供荒謬的搜尋結果而受到強烈批評,例如建議人們在披薩中加入膠水,稱岩石是一種健康的零食,以及向抑鬱的人推薦自殺等。(@IT 之家)
3、阿里國際 Marco 翻譯大模型釋出:支援中英日韓西法等 15 種主流語言
據阿里國際 AI 團隊 AIDC-AI,阿里國際最新研發的翻譯大模型 Marco 於昨日(10 月 16 日)正式上線,支援中、英、日、韓、西、法等 15 種全球主流語種。
官方稱其基於目前廣泛使用的開源評測資料集 Flores,Marco 翻譯大模型在 BLEU 自動評測指標上,領先於市面上的標杆翻譯產品,如 Google 翻譯、DeepL、GPT-4 等。
「你的寶貝正在路上」,不會再被翻譯成「Your baby is on the way」。以「尊嘟喜歡」這一網路用語為例,一些 AI 翻譯產品會將這句話翻譯為「Zundu likes it」, 而在 Marco 大模型中,這句話非常地道地翻譯為「I really like it」。
據官方所說,Marco 翻譯大模型透過面向多語言的資料篩選技術,如多語種混合語料甄別、多維度資料質量評估,獲得高質量、大規模的多語言資料,再結合多語言的混合專家、引數擴張方法,從而保證主導語言(如中、英)效能不下降的情況下,提升其他語種的質量。
對於個人使用者來說,Marco 能夠根據上下文提供高質量的翻譯和良好的可讀性,甚至支援不同的翻譯風格,滿足多樣化的翻譯需求。(IT 之家)
4、OpenAI 最新 53 頁論文:ChatGPT 看人下菜碟,對「小美」比「小帥」更友好
openAI 最新發布的 53 頁論文指出,ChatGPT 在與使用者互動時,會根據使用者名稱推斷性別、種族等身份特徵,並可能重複訓練資料中的社會偏見。例如,對於相同的問題,如果提問者名為「小美」,ChatGPT 可能將其與幼兒教育相關聯;而如果提問者名為「小帥」,則可能關聯到電子和計算機工程。此外,ChatGPT 在講故事時,也傾向於設定與提問者性別一致的主角,以增強使用者的代入感。
研究還發現,女性名字更可能得到語氣友好、通俗的回覆,而男性名字則更多收到專業術語。儘管總體差異不大,但這一模式引起了關注。OpenAI 強調,有害回覆的出現率僅約 0.1%,研究的目的是為了展示研究中的情況。
研究的目的是為了評估聊天機器人在不同場景下的偏見,如推薦電影等娛樂場景,以及篩選簡歷等嚴肅場景,後者可能影響社會公平。研究方法上,團隊使用了一個大模型作為「語言模型研究助手」,在保護隱私的前提下分析 Chatbot 回應的敏感性。
研究發現,在開放式任務如寫故事中,有害刻板印象的可能性更高。透過對比不同模型版本,發現較新的模型在所有任務中的偏見均低於 1%。此外,增強學習技術可以顯著減輕有害刻板印象,顯示出後訓練干預的重要性。
這項研究為評估聊天機器人中的第一人稱公平性提供了一套系統、可復現的方法,儘管存在侷限性,如目前僅關注了英語對話、種族和性別覆蓋有限等,未來研究將擴充到更多人口統計屬性、語言環境和對話形式。(@LLM 大模型)
5、華為有望下週推出高階 MR/AR 裝置
近日,華為官宣將於 10 月 22 日 19:00 舉辦原生鴻蒙之夜暨華為全場景新品釋出會。屆時或將會有一系列新品得以亮相,包含手機等新品。當前市面呼聲最高的當屬華為 Mate 70 系列手機,屆時或將首發全新的純血鴻蒙正式版 HarmonyOS NEXT。
值得注意的是,華為或有可能在此次新品釋出會上推出其旗下 MR 頭顯。實際上,華為推出 XR 頭顯傳聞由來已久。去年年底和今年年初之時,市面就傳出華為將於 2024 年推出對標蘋果 Vision Pro 的高階 MR 頭顯。
值得注意的是,華為已在智慧眼鏡領域有著深耕。去年 9 月,在華為秋季全場景新品釋出會上,華為帶來華為智慧眼鏡 2。該眼鏡引入了全新同向雙振膜單元;其採用全新的雙麥克黃金佈局,配合智慧通話降噪演算法,在通話或影片時讓眼鏡更清晰地拾取使用者的聲音。
除了不含 AR 功能的 AI 智慧眼鏡外,華為還在此前推出過類似於 AR 眼鏡的觀影眼鏡。資料顯示,2022 年 11 月,華為在 2022 年世界 VR 產業大會上釋出了華為旗下首款智慧觀影眼鏡華為 Vision Glass。
就華為智慧觀影眼鏡而言,放在當下,可以說是屬於 AR 眼鏡的範疇。在本次釋出會上,華為有可能會發布高階頭顯,但也不排除可能會發布 AR 智慧眼鏡的可能。(@ 新浪 VR)
02 有態度的觀點
1、王小川:「加時間」才是 AI 應用的好賽道
在 AGI Playground 2024 上,百川智慧 CEO 王小川 表示:「今天的 AI 應用,大多隻是模型能力對外的『呈現』。」
在王小川看來,大模型創業者做應用要非常謹慎,用 App 工廠的模式做大模型應用,可能會給創業者帶來很大的代價。
「娛樂應用 kill time,效率工具 save time,而醫療能延長時間。」所有東西都在變得越來越便宜,越來越容易獲得,但醫療和健康卻在變得越來越貴。這是個很難的問題,但大模型、AGI 能解決這個問題,這便是他認為未來 AI 最大的發展方向。
他認為醫療其實是一個比無人駕駛更有價值的事情,因為沒有無人駕駛司機也能自己開車,但是人生病了沒法自己看病。所以醫生的供給要比司機少很多,同時又跟生命健康高度相關,因此它的價值就足夠大。( @APPSO)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- 亞馬遜雲集齊 Claude 3 全家桶;世界數字技術院釋出大模型安全國際標準丨 RTE 開發者日報 Vol.187亞馬遜大模型開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- 英偉達市值超越蘋果;ChatGPT、Perplexity、Claude 同時大崩潰丨 RTE 開發者日報 Vol.220蘋果ChatGPT開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- 谷歌釋出世界模型,能生成可互動虛擬世界;華為釋出全球首個 5.5G 智慧核心網丨 RTE 開發者日報 Vol.152谷歌世界模型虛擬世界開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- WWDC 蘋果釋出 AI 全家桶;三星宣佈「實時翻譯」將相容第三方 App 丨 RTE 開發者日報 Vol.222蘋果AIAPP開發者日報
- 釋出會後蘋果股價創歷史新高;商湯 Embedding 模型拿下 SOTA 丨 RTE 開發者日報 Vol.223蘋果模型開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 最強國產 Sora 大模型 Vidu 釋出,長度可達 16 秒;微信檔案 3 小時內可撤回丨 RTE 開發者日報 Vol.194Sora大模型開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- 零一萬物Yi-1.5來了,國產開源大模型排行榜再次重新整理大模型
- 蘋果歷時 13 年最終勝訴;谷歌釋出 Gemma 大模型;華為首超蘋果成中國平板市場第一丨 RTE 開發者日報 Vol.149蘋果谷歌Gemma大模型開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 華為否認大模型演示造假;美國億萬富翁宣佈競購 TikTok 丨 RTE 開發者日報 Vol.206大模型開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 創紀錄:英偉達市值一日增 2770 億美元;Xiaomi 14 Ultra 正式釋出丨 RTE 開發者日報 Vol.150開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 百度釋出 AI 眼鏡:全球首搭中文大模型,支援邊走邊問;OpenAI 聯合創始人宣佈迴歸,主抓重大技術創新丨 RTE 開發者日報大模型OpenAI開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- (內含福利)Meta 釋出新開源模型 Llama 3;華為 Pura 70 系列一分鐘售罄丨 RTE 開發者日報 Vol.188模型開發者日報
- RTE 領域近期詞雲統計釋出;谷歌開始新一輪「瘦身」計劃;使用ChatGPT之後智力提高 50%丨RTE開發者日報 Vol.50谷歌ChatGPT開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- 沒有方向盤和踏板,特斯拉釋出無人駕駛計程車;位元組豆包推出 AI 智慧體耳機 Ola Friend 丨 RTE 開發者日報AI智慧體開發者日報
- 馬斯克突擊訪華;谷歌 Python 基礎團隊全數被裁;丨 RTE 開發者日報 Vol.195馬斯克谷歌Python開發者日報
- 特斯拉全自動駕駛能力(FSD)或與百度合作;小紅書內測自研大模型丨 RTE 開發者日報 Vol.196自動駕駛大模型開發者日報