新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓練資料陷入大難題

xinhuozhong發表於2023-12-19

作者:一號

編輯:小迪


谷歌過於心急,Gemini推出不到半月,就遭遇兩次“危機”。

美東時間12月6日,谷歌推出了迄今為止規模最大,能力最強的大模型Gemini。其原生多模態的能力,透過一條約6分鐘的演示影片,展現得淋漓盡致,讓人不得不感慨它的強大,就連馬斯克都評論說,“(Gemini)令人印象深刻”。

谷歌在AI領域的成就有目共睹,儘管之前推出的Bard表現不盡人意,讓谷歌市值一夜蒸發了1000億美元。但經過一年沉澱,加上和DeepMind聯合研發,所以Gemini(雙子星)可是被寄予了厚望。

新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓練資料陷入大難題

但是,Gemini釋出後僅一天,就有人指控谷歌“造假”。除了在資料對比上沒有使用相同條件,演示影片效果也是經過剪輯的。逼得谷歌不得不給出文件承認影片是經過加工的。

12月14日,影片“造假”事件還沒降溫, 谷歌就宣佈對外免費開放Gemini Pro的API。讓不少人高興得奔走相告。因為相較於GPT-4收費版才能擁有的視覺模型,Gemini Pro可以直接給平民AI玩家體驗AI視覺能力的機會。

但就在API開放後不久,就有使用者發現,在Poe上使用Gemini Pro時,如果用簡體中文連續詢問“你好”和“你是誰”這兩個問題時,Gemini Pro會直接說出“我是百度文心大模型”這樣的回答,給網友都看“呆”了。

谷歌Gemini被百度文心一眼“奪舍”了?

微博大V闌夕就發博展示了這樣的效果,就連進一步詢問 “你的創始人是誰”時,它也很乾脆地回答: 李彥宏

新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓練資料陷入大難題

難道Gemini被百度“奪舍”了?不少人懷疑這是因為博主在對話前面設定了提示詞,讓Gemini扮演文心一言,但這位博主強調,沒有任何前置對話。

新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓練資料陷入大難題

本著求真的態度,我們也去Poe上試用了一下,結果真的可以復現。

新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓練資料陷入大難題

會不會是Poe平臺上的介面用錯了?不過Poe平臺可不是什麼野雞套殼網站,它是美版知乎Quora推出的AI聊天機器人平臺,你所熟知的ChatGPT、Claude等知名AI都可以在上面使用。而且如果你使用英文提問Gemini,它就會立刻恢復正常。並且單就從“作案動機”上來講,Poe也沒有必要這麼做。

除此之外,還有使用者在谷歌自己的Vertex AI平臺上,使用中文對話,也出現了這種情況。因此,Poe的介面使用出錯,這個可能基本可以被排除,問題應該出在Gemini本身。

新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓練資料陷入大難題

使用AI生成的資料進行訓練已不新鮮

這樣看下來,要麼就是谷歌使用了百度文心一言的語料進行訓練,要麼就是它所使用的語料已經被AI“汙染”了。

其實大模型訓練使用其他大模型生成的語料這件事情已經不是第一次發生,並且谷歌還是有“前科”的。在上一代Bard時,谷歌就曾被曝出使用ChatGPT的資料進行訓練,並且根據The Information報導,這件事情還造成了Jacob Devlin從谷歌離職。

就在上週末,位元組跳動也被OpenAI禁止使用API介面,原因也是因為說位元組在使用GPT訓練自己的AI,違反了使用條例。

新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓練資料陷入大難題

如果按照現在每個模型堆“訓練資料量”的操作來看,網際網路上的人類原生的資料很快就會用完,並且各個模型之間也將會很相似。因此,獲取一些未被別人拿去訓練的資料,是模型之間保持差異化的一種方法。因此,有些AI公司會向一些擁有專屬資料的公司購買資料。例如OpenAI就曾表示願意每年支付高達八位數的費用,用以獲取彭博社自有的歷史和持續的金融檔案資料訪問許可權。

新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓練資料陷入大難題

另一個思路,就是選擇使用AI合成的資料來進行訓練。香港大學、牛津大學和位元組跳動的幾名研究院就曾嘗試過使用高質量AI合成圖片,來提升影像分類模型的效能,結果發現效果還不錯,甚至比真實資料訓練還要好。

AI生成的內容正在“汙染”網際網路

而從另一方面來看,AI生成的內容汙染網際網路也是一個不得不重視的問題了。尤其是生成式AI大爆發的今年。在文字、影像、影片還有音訊等領域,AI生成的內容都正在“汙染”網際網路上資料內容。

就在上個月,一些網友發現,在谷歌搜尋上輸入已故夏威夷歌手Israel Kamakawiwo’ole的名字是,得到的搜尋結果,前幾張圖片都是有AI生成的,而並非真實照片,並且這是一位以彈奏尤克里裡而聞名的音樂家,但圖片裡的他卻在彈吉他。

新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓練資料陷入大難題

在文字方面也是,隨著百家號等媒體平臺上出現的AI幫寫等功能,AI生成的文章已經開始在網際網路上“蔓延”,這讓普通人在網際網路上篩選真實且有效的資訊的效率反而降低了。可以說,AI生成內容對網際網路語料的“汙染”,可能會導致產生一個新的需求,那就是幫人們分辨內容是否由AI生成的AI。

畢竟,目前訓練AI所需要的資料還是人類所生產的,在資料清洗過程中,需要注意清除一些由其他AI生成的內容。一旦網際網路上AI生成的內容越多,越能以假亂真,那麼資料篩選的難度將越大。並且在大模型出現“幻覺”以及AI如何產生“智慧湧現”這兩個問題沒有得到徹底解決之前,我想我們都無法做到徹底信賴AI生成的內容。

畢竟一旦AI生成了錯誤的內容,而另一個AI拿著這個內容去訓練,然後再另一個AI拿到新的錯誤內容......這樣“滾雪球”下去,AI最終會生成什麼樣的逆天垃圾,我們真的無法想象。


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70035178/viewspace-3000675/,如需轉載,請註明出處,否則將追究法律責任。

相關文章