新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓練資料陷入大難題
作者:一號
編輯:小迪
谷歌過於心急,Gemini推出不到半月,就遭遇兩次“危機”。
美東時間12月6日,谷歌推出了迄今為止規模最大,能力最強的大模型Gemini。其原生多模態的能力,透過一條約6分鐘的演示影片,展現得淋漓盡致,讓人不得不感慨它的強大,就連馬斯克都評論說,“(Gemini)令人印象深刻”。
谷歌在AI領域的成就有目共睹,儘管之前推出的Bard表現不盡人意,讓谷歌市值一夜蒸發了1000億美元。但經過一年沉澱,加上和DeepMind聯合研發,所以Gemini(雙子星)可是被寄予了厚望。
但是,Gemini釋出後僅一天,就有人指控谷歌“造假”。除了在資料對比上沒有使用相同條件,演示影片效果也是經過剪輯的。逼得谷歌不得不給出文件承認影片是經過加工的。
12月14日,影片“造假”事件還沒降溫, 谷歌就宣佈對外免費開放Gemini Pro的API。讓不少人高興得奔走相告。因為相較於GPT-4收費版才能擁有的視覺模型,Gemini Pro可以直接給平民AI玩家體驗AI視覺能力的機會。
但就在API開放後不久,就有使用者發現,在Poe上使用Gemini Pro時,如果用簡體中文連續詢問“你好”和“你是誰”這兩個問題時,Gemini Pro會直接說出“我是百度文心大模型”這樣的回答,給網友都看“呆”了。
谷歌Gemini被百度文心一眼“奪舍”了?
微博大V闌夕就發博展示了這樣的效果,就連進一步詢問 “你的創始人是誰”時,它也很乾脆地回答: 李彥宏。
難道Gemini被百度“奪舍”了?不少人懷疑這是因為博主在對話前面設定了提示詞,讓Gemini扮演文心一言,但這位博主強調,沒有任何前置對話。
本著求真的態度,我們也去Poe上試用了一下,結果真的可以復現。
會不會是Poe平臺上的介面用錯了?不過Poe平臺可不是什麼野雞套殼網站,它是美版知乎Quora推出的AI聊天機器人平臺,你所熟知的ChatGPT、Claude等知名AI都可以在上面使用。而且如果你使用英文提問Gemini,它就會立刻恢復正常。並且單就從“作案動機”上來講,Poe也沒有必要這麼做。
除此之外,還有使用者在谷歌自己的Vertex AI平臺上,使用中文對話,也出現了這種情況。因此,Poe的介面使用出錯,這個可能基本可以被排除,問題應該出在Gemini本身。
使用AI生成的資料進行訓練已不新鮮
這樣看下來,要麼就是谷歌使用了百度文心一言的語料進行訓練,要麼就是它所使用的語料已經被AI“汙染”了。
其實大模型訓練使用其他大模型生成的語料這件事情已經不是第一次發生,並且谷歌還是有“前科”的。在上一代Bard時,谷歌就曾被曝出使用ChatGPT的資料進行訓練,並且根據The Information報導,這件事情還造成了Jacob Devlin從谷歌離職。
就在上週末,位元組跳動也被OpenAI禁止使用API介面,原因也是因為說位元組在使用GPT訓練自己的AI,違反了使用條例。
如果按照現在每個模型堆“訓練資料量”的操作來看,網際網路上的人類原生的資料很快就會用完,並且各個模型之間也將會很相似。因此,獲取一些未被別人拿去訓練的資料,是模型之間保持差異化的一種方法。因此,有些AI公司會向一些擁有專屬資料的公司購買資料。例如OpenAI就曾表示願意每年支付高達八位數的費用,用以獲取彭博社自有的歷史和持續的金融檔案資料訪問許可權。
另一個思路,就是選擇使用AI合成的資料來進行訓練。香港大學、牛津大學和位元組跳動的幾名研究院就曾嘗試過使用高質量AI合成圖片,來提升影像分類模型的效能,結果發現效果還不錯,甚至比真實資料訓練還要好。
AI生成的內容正在“汙染”網際網路
而從另一方面來看,AI生成的內容汙染網際網路也是一個不得不重視的問題了。尤其是生成式AI大爆發的今年。在文字、影像、影片還有音訊等領域,AI生成的內容都正在“汙染”網際網路上資料內容。
就在上個月,一些網友發現,在谷歌搜尋上輸入已故夏威夷歌手Israel Kamakawiwo’ole的名字是,得到的搜尋結果,前幾張圖片都是有AI生成的,而並非真實照片,並且這是一位以彈奏尤克里裡而聞名的音樂家,但圖片裡的他卻在彈吉他。
在文字方面也是,隨著百家號等媒體平臺上出現的AI幫寫等功能,AI生成的文章已經開始在網際網路上“蔓延”,這讓普通人在網際網路上篩選真實且有效的資訊的效率反而降低了。可以說,AI生成內容對網際網路語料的“汙染”,可能會導致產生一個新的需求,那就是幫人們分辨內容是否由AI生成的AI。
畢竟,目前訓練AI所需要的資料還是人類所生產的,在資料清洗過程中,需要注意清除一些由其他AI生成的內容。一旦網際網路上AI生成的內容越多,越能以假亂真,那麼資料篩選的難度將越大。並且在大模型出現“幻覺”以及AI如何產生“智慧湧現”這兩個問題沒有得到徹底解決之前,我想我們都無法做到徹底信賴AI生成的內容。
畢竟一旦AI生成了錯誤的內容,而另一個AI拿著這個內容去訓練,然後再另一個AI拿到新的錯誤內容......這樣“滾雪球”下去,AI最終會生成什麼樣的逆天垃圾,我們真的無法想象。
來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70035178/viewspace-3000675/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 谷歌Gemini中文疑似套殼百度文心一言谷歌
- 新火種AI|谷歌Gemini被曝誇大營銷?碾壓GPT4純靠“一張嘴”AI谷歌GPT
- 新火種AI|谷歌深夜釋出復仇神器Gemini,原生多模態碾壓GPT-4?AI谷歌GPT
- 谷歌AI播客剛火,Meta就開源了平替,效果一言難盡谷歌AI
- 在文心一言出生地,百度悄悄燃燒AI小宇宙AI
- 重磅:谷歌釋出最強大AI模型【Google Gemini】谷歌AI模型Go
- 新火種AI|2024,得AI晶片者得天下。AI晶片
- 新火種AI | 馬斯克的AI大模型來了!其他AI不能回答的問題,它能回答嗎?AI馬斯克大模型
- 新火種AI | 誰是AI時代的“抖音”?AI
- 谷歌免費GPU訓練星際2AI好難?你需要份debug指南谷歌GPUAI
- 重返谷歌的Transformer作者,開始掌管Gemini AI谷歌ORMAI
- 新火種AI|VC對大模型望而生畏?2023,資本投資AI的風向標有哪些AI大模型
- 新火種AI|“賭城”上演“科技春晚”,AI硬體將在2024年大爆發AI
- 訓練AI吞食垃圾 瀚藍環境探索破解垃圾圍城難題AI
- Nature封面:AI訓練AI,越訓越離譜AI
- 新火種AI|美光、英偉達大漲,AI引爆後,晶片行業寒冬已過?AI晶片行業
- 新火種AI | 三季度營收344億,AI撐得起百度的“未來”嗎?AI營收
- 新火種AI | “百模大戰”的進退兩難,被李彥宏一句話點破了AI
- 新火種AI | 市場規模200億,短劇未來靠AI?AI
- 關於AI訓練資料侵權的碎碎念AI
- 新火種AI|比爾蓋茲:人工智慧的未來是AI AgentAI人工智慧
- 新火種AI|AI正在讓汽車成為“消費電子產品”AI
- 百度PaddlePaddle的新特性與大規模稀疏資料分散式模型訓練分散式模型
- 【AI】Pytorch_預訓練模型AIPyTorch模型
- 多模態AI是醫學的未來,谷歌推出三個新模型,Med-Gemini迎來大升級AI谷歌模型
- 新火種AI|未來幾年,哪些行業會因為AI而失業?AI行業
- 新火種AI|AI手機“爭奪戰”,榮耀為國產殺出血路AI
- 新火種AI|Grok即將上線!馬斯克據此成為“資料封建王”?AI馬斯克
- LLM-文心一言:UTXO
- 新火種AI|位元組“釦子”正式加AI戰場!2024年的大模型能否實現彎道超車?AI大模型
- 燒腦:7條認知難題難倒了AI大模型AI大模型
- 長三角首個AI+工業網際網路產業基地啟動,百度文心一言來了!AI產業
- 企業級AI問答知識庫訓練營,火熱開營中!AI
- AI打遊戲-肆(模型訓練)AI遊戲模型
- 基於文心一言的生成式資料分析技術探索
- 新火種AI | 奧特曼重回OpenAI:既是成功,也是失敗奧特曼OpenAI
- 實測ChatGPT、Bing、文心一言ChatGPT
- LLM-文心一言:connectTimeout , readTimeout