图像分类准确率的突飞猛进,真的可信吗?|量子位

奥飞寺的夏一文庚

量子生产 | 公众号QbitAI

2018年,图像分类准确率超过95%的模型比比皆是。

回想 2012 年,Hinton 带着他的学生在 ImageNet 上以 16.4% 的错误率震惊了计算机视觉研究界,这似乎是一段古老的历史。

这么多年的飞速进步,真的靠谱吗?

最近的一项研究引起了一些思考:这些进展是值得怀疑的。

这项研究是加州大学伯克利分校和麻省理工学院的几位科学家在 arXiv 上发表的一篇论文:Do CIFAR-10 Classifiers Generalize to CIFAR-10?。

解释一下,这个看似奇怪的问题,“CIFAR-10 分类器能否泛化到 CIFAR-10?”,解决了当今深度学习研究中的一个重大缺陷:

似乎表现良好的深度学习模型在现实世界中可能行不通。因为许多模型和训练方法通过对那些众所周知的基准验证集的过度拟合取得了很好的效果。

该论文指出,过去五年发表的大多数论文都采用了一种范式,其中一种新的机器学习方法在几个关键基准的数据中占有一席之地。

但是,为什么这种方法比它的前辈有这样的改进呢?但很少有人解释。我们对进展的感知主要基于几个标准基准,例如 CIFAR-10、ImageNet、MuJoCo。

这就提出了一个关键问题:我们目前对机器学习进展的衡量标准有多可靠?

这一指控对这些年来图像分类算法的几乎每一项进步都提出了质疑。

没有证据,怎么证明?

为了说明这一点,几位作者采用了 30 个在 CIFAR-10 验证集上表现良好的图像分类模型,在不同的数据集上对其进行了测试,并讨论了结果。

CIFAR-10 包含 60,000 张 32 × 32 像素的彩色图像,分为 5 个训练批次和 1 个测试批次。图像有 10 类:飞机、汽车、鸟、猫、鹿、狗、青蛙、船、卡车。

当然,如果随便找一个数据集进行测试,就有欺凌AI的嫌疑。他们专门创建了一个与 CIFAR-10 非常相似的测试集,包括 2000 张新图像,相同的图像源,相同的数据子类别分布,甚至构建过程中的分工都已经学会。

这个新数据集,论文标题中提到的第二个CIFAR-10机器学习防止过拟合,应该正是“高仿CIFAR-10的小测试集”。

新的测试集给模型带来了明显的打击,战况如下:

对于大名鼎鼎的VGG和ResNet,分类准确率从93%左右下降到85%左右,8个百分点凭空消失。

作者还发现准确性差异的小趋势。那些在原始 CIFAR-10 上更准确的新模型在新测试集上的下降不那么明显。

例如,性能最好的 Shake Shake 模型在新旧测试集的准确率上只有 4 个百分点的差异。

根据论文,这个小趋势表明不同数据集的性能下降可能不是因为基于适应度的过度拟合,而是因为新旧测试集之间数据分布的一些微小变化。

但最终,那些为 CIFAR-10 构建的分类器的泛化性能仍然令人担忧。

质疑引发热议

这项研究就像一个深水炸弹。

不久前写过一篇关于人工智能的文章的 Filip Piekniewski 称赞这篇论文是一项伟大的研究。他还将这个问题称为“元过拟合”。他还批评机器学习近年来只关注少数数据集,而没有关注现实世界的情况。

俄勒冈州立大学教授 Thomas G. Dietterich 指出,不仅 CIFAR10,所有测试数据集都很快被研究人员过度拟合。测试基准需要不断注入新数据集。

OpenAI 研究员 Yaroslav Bulatov 说:“我在 MNIST 上看到过类似的情况。在全新的手写数据集上,一个准确率为 99% 的分类器立即下降到 90%。”

Keras 的作者 François Chollet 更加兴奋。“很明显,当前大量的深度学习技巧过度拟合包括 CIFAR10 在内的知名基准。ImageNet 至少从 2015 年就遇到了这个问题,”他说。

如果你的论文需要一个固定的验证集,以及特定的方法、架构和超参数。那么这不是验证集,而是训练集。这种特定方法不一定适用于真实数据。

在深度学习的研究中,经常会用到不科学的方法。验证集过拟合是需要注意的。其他问题包括:基准太弱、实证结果不支持论文想法、大部分论文存在重现性问题、结果被后选等。

例如,当你参加 Kaggle 比赛时,如果你只在验证集(公共排行榜)数据上调整你的模型,你只会在测试集(私人排行榜)上始终表现不佳。在更广泛的研究领域也是如此。

最后一个非常简单的建议来克服这些问题:使用高熵验证过程,例如 k-fold 验证,或者更进一步,使用带有 shuffle 的递归 k-fold 验证。只检查最后一个官方验证集的结果。

“当然,它的成本更高。但成本本身就是一个规范化因素:它迫使你谨慎行事,而不是把一大块面条扔在墙上,然后看看哪个能粘住,”François Chollet 说。

不仅仅是图像分类

事实上,这种过拟合的问题不仅出现在图像分类研究中,其他模型也不能幸免。

今年早些时候,微软亚洲研究院和阿里巴巴的 NLP 团队在机器阅读理解数据集 SQuAD 上超越了人类。

当时,SQuAD 阅读理解水平测试的发起方斯坦福 NLP 小组对自己的数据集产生了怀疑。他们转发的一条推文说:

似乎整个研究社区都过度拟合了这个数据集。

Google Brain 研究员 David Ha 也表示,他期待在文本和翻译领域进行类似的研究。他说,如果在 PTB 上看到类似的结果,那真是个好消息,也许会发现更好的泛化方法。.

该论文的作者包括加州大学伯克利分校的 Benjamin Recht、Rebecca Roelofs、Vaishaal Shankar 和麻省理工学院的 Ludwig Schmidt。

论文门户:

或者在量子比特公众号(ID:QbitAI)的对话界面机器学习防止过拟合,回复:“451”三个数字,也可以获得下载地址。

– 超过-

真诚招聘

Qubit正在招聘编辑/记者到北京中关村工作。我们期待有才华和热情的学生加入我们!相关详情请在QbitAI对话界面回复“招聘”二字。

Qubit QbitAI·今日头条署名作者

վ’ᴗ’ ի 追踪人工智能技术和产品的新发展

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论