訓練資料是用 GPT-4o 生成的?那質量不好說了。
我們知道,大模型面臨的三大挑戰是演算法、算力和資料。前兩者靠最佳化升級,後者靠積累。隨著技術的不斷髮展,高質量資料已經逐漸成為最大的瓶頸。
在很多新模型上,人們為了提升模型能力,都採用了使用 AI 生成資料來訓練的方式。人們普遍認為,使用合成資料可以顯著提升模型質量。
不過,最新的研究認為,使用 AI 生成的資料並不是什麼好辦法,反而可能會讓模型陷入崩潰。
今天發表在學術頂刊《自然》雜誌的封面研究認為,如果放任大模型用自動生成的資料訓練自己,AI 可能會自我退化,在短短几代內將原始內容迭代成無法挽回的胡言亂語。
這篇由牛津大學等機構提交的研究,強調了由於自我訓練導致人工智慧模型崩潰(Model Collapse)的風險,論證了原始資料來源和仔細資料過濾的必要性。
論文連結:https://www.nature.com/articles/s41586-024-07566-y
哪種模型容易崩潰?
研究認為,當人工智慧模型在生成的資料上進行過度訓練時,就會發生不可逆轉的模型崩潰。
「模型崩潰是指由於對合成資料進行不加區分的訓練而導致模型崩潰的現象」,牛津大學研究員、該論文的主要作者 Ilia Shumailov 表示。
根據論文所述,大型語言模型等生成式 AI 工具可能會忽略訓練資料集的某些部分,導致模型只對部分資料進行訓練。
眾所周知,大語言模型(LLM)需要巨量資料進行訓練,從而使自身獲得解釋其中資訊並應用於各種用例的能力。LLM 通常是為了理解和生成文字而構建的,但研究小組發現,如果忽略它據稱正在閱讀並納入其知識庫的大量文字,可能會很快地使 LLM 淪為空殼。
「在模型崩潰的早期階段,模型首先會失去方差,在少數資料上的表現下降,在模型崩潰的後期階段,模型則會完全崩潰」,Shumailov 說道。因此,隨著模型繼續在模型本身生成的越來越不準確和相關的文字上進行訓練,這種遞迴迴圈會導致模型退化。
模型崩潰,到底是什麼
在該論文中,作者發現的模型崩潰效應是一種退化過程,模型生成的資料會汙染下一代模型的訓練集。模型接受受汙染資料的訓練,會錯誤地感知現實,如下圖 (a) 所示。
模型崩潰可以分為早期和後期階段,早期模型會在少數資料上表現下降,後期模型會收斂到一種與原始分佈幾乎沒有相似之處的分佈,並且方差通常大大減少。
模型崩潰發生主要是因為下述三個特定誤差源在幾代模型中複合,並導致與原始模型出現較大偏差:
統計近似誤差。這是由於樣本數量有限而產生的主要誤差,並且隨著樣本數量趨於無窮大而消失。發生這種情況是因為重取樣的每一步都可能丟失資訊。
函式表達誤差。這是第二種型別的誤差,是由於函式逼近器表達能力有限而產生的。特別是,神經網路只是通用逼近器,無法完美地逼近任何分佈。神經網路可以在原始分佈之外引入非零似然,或者在原始分佈內引入零似然。函式表達誤差的一個簡單例子是,如果我們嘗試用單個高斯擬合兩個高斯的混合。即使我們有關於資料分佈的完美資訊(即無限數量的樣本),模型誤差也將是不可避免的。然而,在沒有其他兩種型別的誤差的情況下,這種情況只能發生在第一代模型。
函式逼近誤差。這是次要型別的誤差,主要源於學習過程的侷限性,例如隨機梯度下降的結構偏差。
上述每一項都可能導致模型崩潰變得更糟或更好。更高的逼近能力甚至可以是一把雙刃劍,更好的表達能力可以抵消統計噪聲,從而很好地逼近真實分佈,但它同樣會加劇噪聲。這通常會產生級聯效應,其中個體的不準確性結合起來會導致整體誤差增加。
例如,過度擬合密度模型會導致模型錯誤推斷,將高密度區域分配給訓練集未覆蓋的低密度區域。
值得注意的是,還存在其他型別的誤差。例如,計算機在實踐中的精度有限。
語言模型中的模型崩潰
作者在文中還評估了模型崩潰對語言模型的影響。模型崩潰在各種機器學習模型中普遍存在。然而,與通常從零開始訓練的小模型(如 GMMs 和 VAEs)不同,LLM 需要巨大的成本從頭開始訓練,因此通常使用預訓練模型(如 BERT、RoBERTa 或 GPT-2)初始化,這些模型是在大型文字語料庫上訓練的。隨後,這些模型被微調以適應各種下游任務。
在這篇論文中,作者探討了當語言模型使用由其他模型生成的資料進行連續微調時會發生什麼。本文中涉及的所有實驗可以在非微調設定下用更大的語言模型輕鬆複製。鑑於訓練一箇中等規模的模型需要的算力也非常可觀,作者選擇不進行這樣的實驗,而是專注於更現實的概念驗證設定。
需要注意的是,本文描述的語言實驗即使在這種情況下也需要幾周時間才能完成。作者評估了訓練語言模型的最常見設定 —— 微調設定,其中每個訓練週期都從一個具有最新資料的預訓練模型開始。這裡的資料來自另一個經過微調的預訓練模型。由於訓練被限制在生成與原始預訓練模型非常相似的模型,並且這些模型生成的資料點通常只會產生非常小的梯度,因此預期在微調後,模型只會發生適度的變化。作者使用 Meta 透過 Hugging Face 提供的 OPT-125m 因果語言模型進行了微調。
案例研究:教堂和長耳大野兔
研究人員在論文中提供了一個使用文字生成模型 OPT-125m 的示例(使用 wikitext2 資料集微調),該模型的效能與 ChatGPT 的 GPT-3 類似,但需要的算力較少。
研究人員將有關設計 14 世紀教堂塔樓的文字輸入到模型中。在第一代文字輸出中,該模型主要討論了在不同教皇統治下建造的建築物。但到了第九代文字輸出,該模型主要討論了大量的黑尾、白尾、藍尾、紅尾和黃尾長耳大野兔。我們應該注意到的是,其中大多數並不是真正存在的長耳大野兔物種。
大模型輸出的內容:從教堂到 100 多種語言,再到野兔。
實驗結果表明,即使原資料一直保留,但模型崩潰的現象仍然會發生。隨著不斷迭代,模型開始忘記真實資料中的資訊,並且生成的內容中包含越來越多重複的短語。
網路充斥 AI 內容,「資料來源」早已被汙染
看到這裡你可能會問了:那還不簡單,不使用合成資料訓練 AI 不就完事了?但實際上,現在能從網際網路上獲取的「資料」,裡面已經不知道有多少是 AI 生成的了,而且我們經常無法把它們和正常內容區分開來。
網際網路上充斥著各種內容,這並不是新鮮事。正如研究人員在論文中指出的那樣,早在大規模語言模型(LLM)成為公眾熟知的話題之前,惡意網站就已經在製造內容,以欺騙搜尋演算法優先顯示他們的網站以獲取點選量。隨著 OpenAI 的 GPT 系列大模型問世,生成式 AI 已經並將會極大地改變文字和影像內容的生態。
AI 生成文字可比人類說廢話快得多,這引發了更大規模的擔憂。杜克大學專門研究隱私與安全的電腦科學家艾米麗 - 溫格 Emily Wenger 曾在文章中寫到相關內容:「儘管 AI 生成的網際網路對人類的影響還有待觀察,但 Shumailov 等人報告稱,線上上大量湧現的 AI 生成內容可能對這些模型本身造成毀滅性的影響。」
「模型崩潰帶來的問題之一是對生成式 AI 的公平性構成挑戰。崩潰的模型會忽略訓練資料中的一些不常見元素,從而無法反映世界的複雜性和細微差別,」Wenger 補充道,「這可能導致少數群體或觀點的代表性減少,甚至可能被抹去。」
大型科技公司正在採取一些措施,以減少普通網路使用者看到的 AI 生成內容的數量。3 月份,谷歌宣佈將調整其演算法,把那些看起來是為搜尋引擎而非人類搜尋者設計的頁面的優先順序進行降低。然而,這一宣告是在 404 Media 關於谷歌新聞推廣 AI 生成文章的報導之後釋出的。
《自然》雜誌封面的這項研究強調,訪問原始資料來源並在遞迴訓練的模型中仔細過濾資料,有助於保持模型的準確性。
該研究還建議,建立大型語言模型(LLM)的 AI 社群可以協調合作,追蹤輸入到模型中的資訊來源。「否則,隨著這種技術的廣泛應用,如果無法獲得在技術普及之前從網際網路上爬取的資料或大量人類生成的資料,訓練新的 LLM 版本可能會變得越來越困難」,研究團隊總結道。
參考內容:
https://www.nature.com/articles/d41586-024-02355-z
https://gizmodo.com/ai-learning-from-its-own-nonsense-might-just-self-destruct-experts-warn-2000478095