
栗子比策源于奥飞寺
量子位报告 | 公众号QbitAI
过去,GAN 的辉煌几乎完全集中在生成的图像上。
生成不存在的女孩。
△ 来自英伟达 StyleGAN
产生不存在的妻子。
△ 来自英伟达 StyleGAN
它甚至发展到可以帮助女孩脱衣服的程度。
△ 来自 DeepNude
但现在不同了。
DeepMind 的两位领导者改造了“史上最强”的 BigGAN,并让新算法做图像分类,打破了 ImageNet 无监督表示学习的记录。
也就是说,半路出家的BigBiGAN,干掉了一群专注分类20年的AI玩家。
△ 我有主角光环
同时,它产生的图像质量仍然非常出色。
但是,如果只将其视为 BigGAN 的升级版,那就太简单了。
我不叫 BigBigGAN
GAN 之父 Ian Goodfellow 帮助团队画了一波焦点:
它被称为 BigBiGAN编码器的意思是什么,而不是 BigBigGAN。
Bi的意思是双向的,也就是说它有一个编码器和一个生成器。
我也开始将其视为 BigBig。
那么,让我们从这里开始吧。
GAN 中加入编码器的想法继承自其前身 BiGAN:
在原始 GAN 架构中编码器的意思是什么,生成器是从随机采样的潜在变量(也称为噪声)到生成的数据(假图像)的前馈映射。
编码器将真实数据(真实图像)映射到潜在变量。这样就有了两个不同方向的映射,就变成了双向GAN。
事实上,BiGAN 过去也在 ImageNet 上做过图像分类。但团队表示,BiGAN 的生成器是 DCGAN 中的那种,不能生成高质量的图像,所以编码器学习到的语义会受到影响。
因此,研究人员决定让 BiGAN 的编码器爱上 BigGAN 的生成器。
但如果是这样的话,你不会高兴的。
别忘了,判别器也是 GAN 的重要组成部分。它不断地看穿生成器的作品,让对方产生的假图像越来越逼真。
判别器本身就是一个强大的神经网络,团队希望它能在“语义”层面强调图像的重建误差,而不需要过多关注底层细节。
考虑到这一目标,该团队开发了“联合鉴别器”。
与普通判别器不同的是,它的输入不仅仅是图像数据(真实图像和假图像),而是图像数据+潜变量的配对数据。
那么,它要区分的不是真图和假图,而是真图和潜变量的对(来自编码器),以及假图像和潜变量的对(来自生成器) .
虽然新算法的名称 BigBiGAN 并不能反映生成器的唯一性,但它是完整的 BigBiGAN:
那么,现在让我们来看看结果。
打破 ImageNet 记录
在 ImageNet 图像分类任务上,BigBiGAN 成为了地表最强的无监督算法。
与现有的监督逻辑回归分类器相比,BigBiGAN 将 ImageNet 的 top-1 准确率提高到 61.3%。
作为一个合格的 GAN,BigBiGAN 肯定具有制造“假照片”的功能。
从无监督 BigBiGAN 模型中选择的图像重建结果。第一行是真实图像;第二行是根据上面的图像 x 重建的图像。
与大多数 GAN 不同,例如像 BigGAN 这样的像素级图像重建,BigBiGAN 更注重高级表示学习,更适合图像分类任务。
该论文还写道,消融实验表明,强大的生成模型有助于学习表示,而强大的推理能力反过来又可以提高大规模生成模型的性能。
看看 BigBiGAN,论文在这里:
高级 BigGAN:
毕根前辈:
ps都来自一个团队。
– 结束-
真诚招聘
Qubit正在招聘编辑/记者到北京中关村工作。我们期待有才华和热情的学生加入我们!相关详情请在QbitAI对话界面回复“招聘”二字。
Qubit QbitAI·今日头条署名作者
վ’ᴗ’ ի 追踪人工智能技术和产品的新发展
请登录后发表评论
注册
社交帐号登录