史上最強GAN被谷歌超越!標註資料少用90%,造假效果卻更逼真
https://www.toutiao.com/a6665898514737791501/
當前生成影像最逼真的BigGAN被超越了!
出手的,是谷歌大腦和蘇黎世聯邦理工學院。他們提出了新一代GAN: S³GAN 。
它們生成的照片,都是真假難辨。
下面這兩隻蝴蝶,哪隻更生動?
兩張風景照片,哪張更真實?
難以抉擇也正常,反正都是假的。上面 的照騙 ,都是左邊出自S³GAN,右邊的出自BigGAN之手。
它們還有更多作品:
至於哪些是S³GAN,答案文末揭曉。
肉眼難分高下,就用資料說話。跑個FID(Frechet Inception Distance)得分,分值越低,就表示這些照騙,越接近人類認識裡的真實照片——
S³GAN是8.0分,而BigGAN是8.4分。新選手略微勝出。
你可還記得BigGAN問世之初,直接將影像生成的逼真度提高了一個Level,引來Twitter上花樣讚賞?
如今它不止被超越,而且是被 輕鬆 超越。
“輕鬆”在哪呢?
S³GAN達到這麼好的效果,只用了10%的人工標註資料。而老前輩BigGAN,訓練所用的資料100%是人工標註過的。
如果用上20%的標註資料,S³GAN的效果又會更上一層樓。
標註資料的缺乏,已經是幫GAN提高生成能力,擴充使用場景的一大瓶頸。如今,這個瓶頸已經幾乎被打破。
現在的S³GAN,只經過了ImageNet的實驗,是實現用更少標註資料訓練生成高保真影像的第一步。
接下來,作者們想要把這種技術應用到“更大”和“更多樣化”的資料集中。
不用標註那麼多
為什麼訓練GAN生成影像,需要大量資料標註呢?
GAN有生成器、判別器兩大元件。
其中判別器要不停地識破假影像,激勵生成器拿出更逼真的影像。
而影像的標註,就是給判別器做判斷依據的。比如,這是真的貓,這是真的狗,這是真的漢堡……這是假圖。
可是,沒有那麼多標註資料怎麼辦?
谷歌和ETH蘇黎世的研究人員,決定訓練AI自己標註影像,給判別器食用。
自監督 vs 半監督
要讓判別器自己標註影像,有兩種方法。
一是 自監督方法,就是給判別器加一個 特徵提取器 (Feature Extractor) ,從沒有標註的真實訓練資料裡面,學到它們的表徵 (Feature Representation) 。
對這個表徵做聚類 (Clustering) ,然後把聚類的分配結果,當成標註來用。
這裡的訓練,用的是自監督損失函式。
二是 半監督方法,也要做特徵提取器,但比上一種方法複雜一點點。
在訓練集的一個 子集 已經標註過的情況下,根據這些已知資訊來學習表徵,同時訓練一個 線性分類器 (Linear Classifier) 。
這樣,損失函式會在自監督的基礎上,再加一項半監督的交叉熵損失 (Cross-Entropy Loss) 。
預訓練了特徵提取器,就可以拿去訓練GAN了。這個用一小部分已知標註養成的GAN,叫做 S²GAN 。
不過,預訓練也不是唯一的方法。
想要雙管齊下,可以用 協同訓練 (Co-Training) :
直接在判別器的表徵上面,訓練一個半監督的線性分類器,用來預測沒有標註的影像。這個過程,和GAN的訓練一同進行。
這樣就有了S²GAN的協同版,叫 S²GAN-CO 。
升級一波
然後,團隊還想讓S²GAN變得更強大,就在GAN訓練的穩定性上面花了心思。
研究人員說,判別器自己就是一個分類器嘛,如果把這個分類器擴增 (Augmentation) 一下,可能療效上佳。
於是,他們給了分類器一個額外的自監督任務,就是為 旋轉擴增 過的訓練集 (包括真圖和假圖) ,做個預測。
再把這個步驟,和前面的半監督模型結合起來,GAN的訓練變得更加穩定,就有了升級版 S³GAN :
架構脫胎於BigGAN
不管是S²GAN還是S³GAN,都借用了前輩BigGAN的網路架構,用的優化超引數也和前輩一樣。
不同的是,這個研究中,沒有使用正交正則化 (Orthogonal Regularization) ,也沒有使用截斷 (Truncation) 技巧。
訓練的資料集,來自ImageNet,其中有130萬訓練影像和5萬測試影像,影像中共有1000個類別。
影像尺寸被調整成了128×128×3,在每個類別中隨機選擇k%的樣本,來獲取半監督方法中的使用的部分標註資料集。
最後,在128核的Google TPU v3 Pod進行訓練。
超越BigGAN
研究對比的基線,是DeepMind的BigGAN,當前記錄的保持者,FID得分為 7.4 。
不過,他們在ImageNet上自己實現的BigGAN,FID為8.4,IS為75,並以此作為了標準。
在這個圖表中,S²GAN是半監督的預訓練方法。S²GAN-CO是半監督的協同訓練方法。
S³GAN,是S²GAN加上一個自監督的線性分類器 (把資料集旋轉擴增之後再拿給它分類) 。
其中,效果最好的是S³GAN,只使用10%由人工標註的資料,FID得分達到8.0,IS得分為78.7,表現均優於BigGAN。
如果你對這項研究感興趣,請收好傳送門:
論文:
High-Fidelity Image Generation With Fewer Labels
https://arxiv.org/abs/1903.02271
文章開頭的這些照騙展示,就出自論文之中:
第一行是BigGAN作品,第二行是S³GAN新品,你猜對了嗎?
另外,他們還在GitHub上開源了論文中實驗所用全部程式碼:
https://github.com/google/compare_gan
— 完 —
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2637962/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 研究:90%安卓app資料被傳回谷歌安卓APP谷歌
- 做一家擁有超強資料標註能力的專業資料標註公司
- 主動學習可減少對標註資料的依賴卻會造成標註冗餘?
- 谷歌開放全新自然語言資料集:多元化場景更詳細標註,讓 AI 助手更懂人類谷歌AI
- 推理最強也最快,谷歌釋出Gemini 2.0 Flash Thinking,全面超越o1-preview谷歌ThinkingView
- 英偉達釋出史上最強GPU,卻叫停了自動駕駛車路測GPU自動駕駛
- 史上最強攻略!手把手教你建「資料中臺」!
- 史上最強Tableau Server 安裝教程Server
- 谷歌最強大模型Gemini 2.0被抬上來了,網友:好科幻谷歌大模型
- 專業資料標註公司和智慧資料標註平臺
- 漫威史上最強英雄“驚奇隊長”現身,然而佔據C位的卻是它......
- yolo資料標註方法YOLO
- 帶你瞭解資料標註之文字標註
- HTTP最強資料大全HTTP
- Android除錯工具-ADB史上最強介紹Android除錯
- 史上最全、最詳細的Docker學習資料Docker
- 史上最簡單的排序演算法?看起來卻滿是bug排序演算法
- 機器學習中的有標註資料集和無標註資料集機器學習
- 什麼是3D點雲資料?該如何標註它?| 資料標註3D
- 1.3億突觸、數萬神經元,谷歌、哈佛釋出史上最強三維「人腦地圖」谷歌地圖
- 詳解成熟的資料標註工具—智慧標註平臺
- 2D3D融合標註案例分享|資料標註3D
- 史上最全最強SpringMVC詳細示例實戰教程SpringMVC
- 機器越“智慧”,資料標註員越容易被淘汰?丨曼孚科技
- 谷歌開源的 GAN 庫–TFGAN谷歌
- 資料標註行業知多少行業
- yolov8_資料集標註YOLO
- llm構建資料標註助手
- 全新instruction調優,零樣本效能超越小樣本,谷歌1370億引數新模型比GPT-3更強Struct谷歌模型GPT
- 22歲少年破解史上最嚴重網路攻擊,拯救全球網際網路,三個月後卻被FBI逮捕
- 史上最強 iPhone 越獄工具開源:功能永久有效!iPhone
- 史上最強程式碼自測方法,沒有之一!
- 如何提高資料標註質量,提供精細化標註資料集?丨曼孚科技
- 15億引數!史上最強通用NLP模型誕生:狂攬7大資料集最佳紀錄模型大資料
- 一文帶你瞭解關鍵點標註 | 資料標註
- 超越標準 GNN !DeepMind、谷歌提出圖匹配網路| ICML最新論文GNN谷歌
- 目標檢測資料集,全部有標註
- AI 資料標註不是“髒活累活”AI