吴恩达Spectrum:以数据为中心的AI运动的原因是什么?

吴恩达是人工智能(AI)和机器学习领域最权威的学者之一。在过去的一年里,他一直在谈论“以数据为中心的 AI”,希望将大家的注意力从以模型为中心的 Shift 转向以数据为中心。

在最近接受 IEEE Spectrum 采访时,他谈到了对基础模型、大数据、小数据和数据工程的一些见解,并给出了发起“以数据为中心的 AI”运动的理由。

“代码——神经网络的架构在过去十年中已经成熟。保持神经网络架构固定并找到改进数据的方法会更有效。”

吴恩达说,他以数据为中心的思想受到了很多批评,就像他在启动谷歌大脑项目以支持大规模神经网络建设时被批评一样:这个想法并不新鲜,而且方向错了。在吴教授看来,批评者中有很多行业资深人士。

对于小数据,吴教授认为它也可以很强大:“只要你有50个好的数据(例子),就足以向神经网络解释你想让它学什么。”

以下为采访原文,由AI Technology Review编译,原意不变。

IEEE:过去十年,深度学习的成功来自大数据和大模型,但有人认为这是一条不可持续的道路。你同意这个观点吗?

Enda Ng:好问题。

我们已经看到了基础模型在自然语言处理 (NLP) 领域的强大功能。老实说,我对更大的 NLP 模型以及在计算机视觉 (CV) 中构建基础模型感到兴奋。视频数据中有很多可以利用的信息,但是由于计算性能和视频数据处理成本的限制,无法建立相关的基础模型。

大数据和大模型作为深度学习引擎已经成功运行了 15 年,而且它仍然生机勃勃。话虽如此,但在某些场景下,我们也看到大数据并不适合,“小数据”是更好的解决方案。

IEEE:CV 基础模型是什么意思?

Enda Wu:它是指非常大的模型,在大数据上训练,在使用时可以针对特定应用进行微调。我在斯坦福的朋友创造的一个术语,例如 GPT-3 是 NLP 领域的一个基本模型。底层模型为开发机器学习应用提供了新范式,前景广阔,但也面临挑战:如何保证合理、公平、公正?随着越来越多的人在基本模型之上构建应用程序,这些挑战将变得更加明显。

IEEE:为 CV 创建基础模型的机会在哪里?

Enda Wu:仍然存在可扩展性问题。与 NLP 相比,CV 需要更多的计算能力。如果你能生产出性能比现在高 10 倍的处理器,那么构建一个包含 10 倍视频数据的基本视觉模型是非常容易的。目前,已经有开发CV基础模型的迹象。

说到这里,我只想说一句:在过去的十年里,深度学习的成功更多地发生在面向消费者的公司中,这些公司的特点是海量的用户数据。因此,在其他行业,深度学习的“规模范式”并不适用。

IEEE:这让我想起了你所说的,你在一家拥有数百万用户的面向消费者的公司的早期经历。

Enda Ng:十年前,当我启动 Google Brain 项目并使用 Google 的计算基础设施构建“大”神经网络时,存在很多争议。当时,一位业内资深人士“悄悄地”告诉我,启动 Google Brain 项目对我的职业生涯不利,我不应该只关注规模,而应该关注架构创新。

我还记得我和我的学生发表的第一篇 NeurIPS 研讨会论文,提倡使用 CUDA。但另一位业内资深人士建议我:CUDA 编程太复杂,作为编程范式工作量太大。我试图说服他下定义的作用答题技巧,但我失败了。

IEEE:我认为他们现在都被说服了。

Enda Ng:我想是的。

过去一年我一直在讨论以数据为中心的 AI,我遇到了与 10 年前相同的评论:“没什么新意”、“这是错误的方向”。

IEEE:您如何定义“以数据为中心的 AI”,为什么称其为运动?

Enda Wu:“以数据为中心的 AI”是一门系统性学科,旨在关注构建 AI 系统所需的数据。对于 AI 系统,需要在代码中实现算法,然后在数据集上对其进行训练。在过去的十年里,人们一直遵循“下载数据集,改进代码”的范式,深度学习因此取得了巨大的成功。

但是对于很多应用来说,代码——神经网络架构,已经基本解决了,不会有太大的难度。因此,保持神经网络架构不变并找到改进数据的方法会更有效率。

当我第一次提到这个的时候,很多人都举手赞成:我们20年来一直遵循“套路”,我们一直在凭直觉做事,是时候把它变成一个系统的项目了主题。

“以数据为中心的人工智能”比一家公司或一组研究人员要大得多。当我和一个朋友在 NeurIPS 组织一个关于“以数据为中心的 AI”的研讨会时,我对出席的作者和演讲者的数量感到非常满意。

IEEE:大多数公司只需要少量数据,那么“以数据为中心的 AI”如何帮助他们?

IEEE:使用 50 张图像训练什么样的模型?是对大型模型的微调,还是全新的模型?

吴恩达:说一下落地AI的工作。在给厂商做视觉检查时,我们经常使用经过训练的模型RetinaNet,其中pretraining只是一小部分。更难的问题是提供工具,使制造商能够以相同的方式挑选和标记正确的图像集以进行微调。这是一个非常现实的问题,无论是视觉、NLP,还是语音,甚至标注者都不愿意手动标注。在使用大数据时,如果数据不均匀,常用的处理方式是获取大量数据,然后使用算法对其进行平均。但是,如果可以开发工具来标记数据中的差异并提供一种非常有针对性的方法来提高数据的一致性,这将是实现高性能系统的一种更有效的方法。

例如,如果您有 10,000 张图片,每组 30 张图片,则这 30 张图片的标签将不一致。我们要做的一件事是构建允许您专注于这些不一致的工具。然后,您可以快速重新标记这些图像,使它们更加一致,从而提高性能。

IEEE:如果可以在训练前更好地设计数据,您认为对高质量数据的关注是否有助于解决数据集偏差问题?

吴恩达:很有可能。有许多研究人员指出,有偏差的数据是导致系统偏差的众多因素之一。事实上,在设计数据方面已经付出了很多努力。 Olga Russakovsky 在 NeurIPS 研讨会上就这个主题做了一场精彩的演讲。我也很喜欢 Mary Gray 在会议上的演讲,他提到“以数据为中心的 AI”是解决方案的一部分,但不是整个解决方案。数据集的数据表等新工具似乎也是其中的重要组成部分。

“以数据为中心的 AI”为我们提供的强大工具之一是能够设计单个数据子集。想象一个训练有素的机器学习系统,它在大多数数据集上表现良好,但只对数据的一个子集有偏差。此时,为了提高这个子集的性能而改变整个神经网络架构是相当困难的。但是,如果只设计数据的子集,则可以更有针对性地解决这个问题。

IEEE:你所说的数据工程到底是什么意思?

吴恩达:在人工智能领域,数据清洗非常重要,但数据清洗的方式往往需要人工解决。在计算机视觉中,有人可能会使用 Jupyter 笔记本可视化图像以查找和解决问题。

但我对可以处理非常大的数据集的工具很感兴趣。即使标签嘈杂,这些工具也可以快速有效地将您的注意力吸引到数据的单个子集或 100 个分组中的一个,在这些分组中收集更多数据会更有帮助。收集更多数据通常很有帮助,但如果所有工作都在收集大量数据,则可能会非常昂贵。

IEEE:使用合成数据会是一个好的解决方案吗?

Enda Ng:我认为合成数据是“以数据为中心的 AI”工具箱中的重要工具。 Anima Anandkumar 在 NeurIPS 研讨会上发表了关于合成数据的精彩演讲。我认为合成数据的一个重要用途超越了预处理来增强学习算法数据集。我希望看到更多工具允许开发人员使用合成数据生成作为机器学习迭代开发闭环的一部分。

IEEE:您的意思是合成数据可以让您在更多数据集上尝试模型吗?

吴恩达:不是这样。例如,智能手机上有许多不同类型的缺陷,如果您要检测智能手机外壳中的缺陷,可能是划痕、凹痕、凹痕、材料变色或其他类型的缺陷。如果您训练了一个模型并通过错误分析发现它总体上表现良好,但在坑上表现不佳,那么合成数据生成将使您能够以更有针对性的方式解决这个问题。您可以为pits类别生成更多数据。

IEEE:你能具体举个例子吗?如果一家公司来到 Landing AI 并说他们在视觉检查方面存在问题,你将如何说服他们?你会给出什么解决方案?

Enda Ng:合成数据生成是一个非常强大的工具,但我通常会先尝试许多更简单的工具。比如使用数据增强来提高标签一致性,或者只是要求制造商收集更多数据。

当客户找到我们时,我们通常首先与他们的检测问题交谈并查看一些图像以验证该问题是否可行计算机视觉。在可行的情况下,我们会要求他们将数据上传到 LandingLens 平台。我们建议并帮助他们标记数据,通常基于“以数据为中心的 AI”方法。

Landing AI 的主要关注点之一是让制造公司自己完成机器学习工作。我们的很多工作都是为了软件的易用性。通过机器学习的开发迭代,我们建议客户如何在平台上训练模型,以及如何通过改进数据标注问题来提高模型的性能。我们的培训和软件一直在工作,直到将经过培训的模型部署到工厂的边缘设备。

IEEE:那么您如何应对不断变化的需求?如果产品发生变化或工厂内照明条件发生变化,模型能否适应这种情况?

Enda Ng:因制造商而异。很多情况下都有数据漂移,但也有厂商在同一条线上跑了20年变化不大,所以他们不指望未来5年会有变化,稳定环境变得更容易了。对于其他制造商,我们还提供了在出现重大数据漂移问题时进行标记的工具。我发现让制造业的客户能够自主更正数据、重新训练和更新模型非常重要。比如美国现在是凌晨3点,一旦有变化,我希望他们能马上自行调整学习算法来维持运营。

在消费软件互联网中,我们可以训练少数机器学习模型来服务十亿用户。在制造业中,您可能有 10,000 家制造商定制 10,000 个 AI 模型。挑战在于,Landing AI 如何在不雇佣 10,000 名机器学习专家的情况下做到这一点?

IEEE:所以为了提高质量,必须授权用户自己进行模型训练?

吴恩达:是的,没错!这是一个全行业的人工智能问题,而不仅仅是制造业。比如在医疗领域,各个医院的电子病历格式略有不同。如何训练和定制自己的 AI 模型?期望每家医院的 IT 人员都重新发明神经网络架构是不现实的。因此,必须构建工具以使用户能够通过为用户提供设计数据和表达其领域知识的工具来构建自己的模型。

IEEE:还有什么需要读者知道的吗?

Enda Ng:过去十年人工智能的最大转变是深度学习,而在接下来的十年中,我认为它将以数据为中心。随着神经网络架构的成熟,对于许多实际应用来说,瓶颈将是“如何获取和开发所需的数据”。以数据为中心的人工智能在社区中具有巨大的能量和潜力,希望更多的研究人员加入!

有兴趣的同学可以快速加入我们的星球

3 周 10 节课,适合初学者

全年12个有趣的实践项目,包括源代码,

每月奖励优秀前三学生送书

专业问答群,大厂教师保姆式教学

如果您不满意,请在三天内退款!一年88下定义的作用答题技巧,现在减16元

扫码加入,3周零基础入门

入门:最全零基础学习Python问题 | 8个月零基础学习Python |实际项目 |学习Python就是这个捷径

干货:爬行豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析|从万众期待到口碑相传!唐探3令人失望 | 天天要闻笑看新的永恒龙刀|灯谜之王 |使用Python制作大量小姐姐速写 | 天天要闻Mission Impossible这么受欢迎,我用机器学习制作了一部迷你推荐系统电影

乐趣:弹球游戏 |九宫格 |漂亮的花 | 200行Python《每日酷跑》游戏!

AI:会写诗的机器人 |彩色图片 |预测收入 | Mission Impossible这么受欢迎,我用机器学习制作了一部迷你推荐系统电影

Widget:PDF转Word,轻松获取表格和水印! 一键将HTML页面保存为pdf! |再见PDF提取费用! | 90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 |做钉钉低价票提醒! |60行代码做一个语音壁纸切换器,天天看小姐姐! |

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论