零一萬物 Yi-Lightning:超越 GPT-4o 衝擊全球榜單;阿里國際 Marco 翻譯大模型釋出丨 RTE 開發者日報

RTE开发者社区發表於2024-10-17

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。

我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、零一萬物新旗艦模型 Yi-Lightning 釋出:LMSYS 測試國產首次超越 GPT-4o,中國第一、世界第六

李開復創辦的 AI 公司零一萬物於 10 月 16 日對外發布新旗艦模型 Yi-Lightning。
在盲測榜單 LMSYS 上,Yi-Lightning 超越 OpenAI、Anthropic 所釋出的 GPT-4o-2024-05-13、 Claude 3.5 Sonnet,排名世界第六,中國第一。

零一萬物表示,這是在 LMSYS 這一全球大模型必爭的公開擂臺上,中國大模型首度實現「超越 OpenAI GPT-4o 」的最佳成績。

模型效能升級之餘,零一萬物宣稱 Yi-Lightning 的推理速度也有提升,首包時間較上半年釋出的 Yi-Large 減少一半,最高生成速度提速近四成。同時,Yi-Lightning 實現了推理成本的進一步下降。

目前 Yi-Lightning 已上線 Yi 大模型開放平臺,每百萬 token 定價 0.99 元。(@IT 之家)

2、谷歌 AI 又闖禍:錯把遊戲開發者個人電話當公司電話公佈致其被騷擾

谷歌搜尋的實驗性 AI 功能「Overview(概述)」再次闖禍,該功能曾因提供錯誤和有害搜尋結果而備受批評,而其最新失誤更是導致了一名遊戲開發者的個人電話號碼被錯誤地公開。

Skybound Games 高階環境藝術家 Rogelio Delgado 在社交媒體 X 上分享了一段他接到一個憤怒的孩子家長電話的經歷,該家長抱怨他在兒子玩的《流放者柯南》中發現了不合適的內容,這是一款 2017 年的 M 級開放世界生存遊戲,由製作《沙丘:覺醒》的 Funcom 工作室開發。該家長稱他透過谷歌搜尋找到了 Delgado 的電話號碼,因為後者曾於八年前在 Funcom 工作過。

經過一番「有點針鋒相對且尷尬的談話」後,該家長最終道歉,解釋稱是他的助手找到了這個號碼,他並不知道 Delgado 已不再在 Funcom 工作。隨後,該家長向 Delgado 傳送了一張截圖,顯示谷歌的 AI Overview 將他的個人電話號碼列為 Funcom 公司的主要辦公電話。

Delgado 對此感到非常憤怒,他稱:「我唯一能想到的這件事發生的原因是,我的簡歷上有我的電話號碼,上面也把我列為 Funcom 的前員工…… 但谷歌人工智慧怎麼會得出這個結論,認為這是位於挪威的公司辦公室的電話號碼…… @GoogleAI 把你們的事情做好。」

有網友發現,谷歌 AI 實際上是從錯誤的商業平臺 LeadIQ 上獲取了這個電話號碼,谷歌應該從 Funcom 的公開聯絡資訊頁面獲取正確的資訊。

這並不是谷歌的 AI 首次引發爭議,今年早些時候 Overview 功能曾因提供荒謬的搜尋結果而受到強烈批評,例如建議人們在披薩中加入膠水,稱岩石是一種健康的零食,以及向抑鬱的人推薦自殺等。(@IT 之家)

3、阿里國際 Marco 翻譯大模型釋出:支援中英日韓西法等 15 種主流語言

據阿里國際 AI 團隊 AIDC-AI,阿里國際最新研發的翻譯大模型 Marco 於昨日(10 月 16 日)正式上線,支援中、英、日、韓、西、法等 15 種全球主流語種。
官方稱其基於目前廣泛使用的開源評測資料集 Flores,Marco 翻譯大模型在 BLEU 自動評測指標上,領先於市面上的標杆翻譯產品,如 Google 翻譯、DeepL、GPT-4 等。

「你的寶貝正在路上」,不會再被翻譯成「Your baby is on the way」。以「尊嘟喜歡」這一網路用語為例,一些 AI 翻譯產品會將這句話翻譯為「Zundu likes it」, 而在 Marco 大模型中,這句話非常地道地翻譯為「I really like it」。

據官方所說,Marco 翻譯大模型透過面向多語言的資料篩選技術,如多語種混合語料甄別、多維度資料質量評估,獲得高質量、大規模的多語言資料,再結合多語言的混合專家、引數擴張方法,從而保證主導語言(如中、英)效能不下降的情況下,提升其他語種的質量。

對於個人使用者來說,Marco 能夠根據上下文提供高質量的翻譯和良好的可讀性,甚至支援不同的翻譯風格,滿足多樣化的翻譯需求。(IT 之家)

4、OpenAI 最新 53 頁論文:ChatGPT 看人下菜碟,對「小美」比「小帥」更友好

openAI 最新發布的 53 頁論文指出,ChatGPT 在與使用者互動時,會根據使用者名稱推斷性別、種族等身份特徵,並可能重複訓練資料中的社會偏見。例如,對於相同的問題,如果提問者名為「小美」,ChatGPT 可能將其與幼兒教育相關聯;而如果提問者名為「小帥」,則可能關聯到電子和計算機工程。此外,ChatGPT 在講故事時,也傾向於設定與提問者性別一致的主角,以增強使用者的代入感。

研究還發現,女性名字更可能得到語氣友好、通俗的回覆,而男性名字則更多收到專業術語。儘管總體差異不大,但這一模式引起了關注。OpenAI 強調,有害回覆的出現率僅約 0.1%,研究的目的是為了展示研究中的情況。

研究的目的是為了評估聊天機器人在不同場景下的偏見,如推薦電影等娛樂場景,以及篩選簡歷等嚴肅場景,後者可能影響社會公平。研究方法上,團隊使用了一個大模型作為「語言模型研究助手」,在保護隱私的前提下分析 Chatbot 回應的敏感性。

研究發現,在開放式任務如寫故事中,有害刻板印象的可能性更高。透過對比不同模型版本,發現較新的模型在所有任務中的偏見均低於 1%。此外,增強學習技術可以顯著減輕有害刻板印象,顯示出後訓練干預的重要性。

這項研究為評估聊天機器人中的第一人稱公平性提供了一套系統、可復現的方法,儘管存在侷限性,如目前僅關注了英語對話、種族和性別覆蓋有限等,未來研究將擴充到更多人口統計屬性、語言環境和對話形式。(@LLM 大模型)

5、華為有望下週推出高階 MR/AR 裝置

近日,華為官宣將於 10 月 22 日 19:00 舉辦原生鴻蒙之夜暨華為全場景新品釋出會。屆時或將會有一系列新品得以亮相,包含手機等新品。當前市面呼聲最高的當屬華為 Mate 70 系列手機,屆時或將首發全新的純血鴻蒙正式版 HarmonyOS NEXT。

值得注意的是,華為或有可能在此次新品釋出會上推出其旗下 MR 頭顯。實際上,華為推出 XR 頭顯傳聞由來已久。去年年底和今年年初之時,市面就傳出華為將於 2024 年推出對標蘋果 Vision Pro 的高階 MR 頭顯。

值得注意的是,華為已在智慧眼鏡領域有著深耕。去年 9 月,在華為秋季全場景新品釋出會上,華為帶來華為智慧眼鏡 2。該眼鏡引入了全新同向雙振膜單元;其採用全新的雙麥克黃金佈局,配合智慧通話降噪演算法,在通話或影片時讓眼鏡更清晰地拾取使用者的聲音。

除了不含 AR 功能的 AI 智慧眼鏡外,華為還在此前推出過類似於 AR 眼鏡的觀影眼鏡。資料顯示,2022 年 11 月,華為在 2022 年世界 VR 產業大會上釋出了華為旗下首款智慧觀影眼鏡華為 Vision Glass。

就華為智慧觀影眼鏡而言,放在當下,可以說是屬於 AR 眼鏡的範疇。在本次釋出會上,華為有可能會發布高階頭顯,但也不排除可能會發布 AR 智慧眼鏡的可能。(@ 新浪 VR)

02 有態度的觀點

1、王小川:「加時間」才是 AI 應用的好賽道

在 AGI Playground 2024 上,百川智慧 CEO 王小川 表示:「今天的 AI 應用,大多隻是模型能力對外的『呈現』。」

在王小川看來,大模型創業者做應用要非常謹慎,用 App 工廠的模式做大模型應用,可能會給創業者帶來很大的代價。

「娛樂應用 kill time,效率工具 save time,而醫療能延長時間。」所有東西都在變得越來越便宜,越來越容易獲得,但醫療和健康卻在變得越來越貴。這是個很難的問題,但大模型、AGI 能解決這個問題,這便是他認為未來 AI 最大的發展方向。

他認為醫療其實是一個比無人駕駛更有價值的事情,因為沒有無人駕駛司機也能自己開車,但是人生病了沒法自己看病。所以醫生的供給要比司機少很多,同時又跟生命健康高度相關,因此它的價值就足夠大。( @APPSO)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章