2021MLPerf?人工智能测试收官之作正是因为如此

现在是十二月,是时候盘点和总结了。记住DIY最火爆的时代,年底要做的就是选择硬件产品的横向评测、盘点等重要话题。从消费者到制造商,通过比较可以了解产品的性能和市场表现,从而做出选择和研发的决策。一代产品积累经验。

让我们来看看企业市场。在过去的 20 年里,它发生了迅速的变化。自x86服务器兴起以来,多算力、云计算、大数据、人工智能、容器等技术不断取得突破。数字化的未来已经书写了一页又一页的传奇。

企业级市场发展至今,可见无论是技术还是产品,总体趋势无一例外地向应用方向发展。CPU、GPU、DPU 和存储不再是单一的衡量标准。企业级用户关心的应用,或者以什么成本,能够提供我需要的性能,是最重要的一点。

2021 年 MLPerf?人工智能测试的最后一块

正是因为如此,MLPerf? 测试已成为新一代的基准。它衡量了人工智能相关领域服务器的性能,具有很大的实用价值,因此也备受业界关注。

MLPerf? 是最具影响力的国际人工智能性能基准,由图灵奖获得者大卫帕特森和顶级学术机构发起并建立。2020 年,基于 MLPerf? 的非营利性机器学习开放组织 MLCommons 成立。基准。其成员包括谷歌、Facebook、英伟达、英特尔、浪潮、哈佛大学、斯坦福大学、加州大学伯克利分校等50多位全球人工智能领袖。致力于推进机器学习和人工智能标准和指标的领先学术机构。

目前,MLCommons 组织了 2 个 MLPerf? AI 训练性能测试和 2 MLPerf?每年进行AI推理性能测试,为用户提供衡量设备性能的权威有效数据指导。

MLPerf? benchmark分为两个分区:Closed Model Division和Open Model Division。

固定任务是通过相同的模型、优化器和参数值,在不同的服务器上测试深度学习的性能,类似于我们每天看到的硬件对比评测。开放任务对深度学习模型和准确性没有过多的约束,重点关注服务器厂商对深度学习模型和算法的优化能力,推动机器学习模型和优化的创新。

固定任务(Closed)强调AI计算系统的公平比较。比赛衡量相同深度学习模型在不同硬件上的表现,重点考察参赛厂商的硬件系统和软件优化能力。

从 MLPerf? 每年都会组织4场AI相关的测试,年底的这个时候当然会是重头戏,业界对此的关注度也很高。12 月 1 日,MLPerf? 公布了最新的培训(Training)清单V1.1。此次,谷歌、微软云、英伟达、浪潮、百度、戴尔等共计14家企业和科研机构参加了MLPerf? 基准测试,全部来自国际大厂,可谓华山之剑。共提交了180个固定任务(Closed)分数和6个开放任务(Open)分数。

在单机测试的8个任务中,浪潮信息获得7个冠军,英伟达获得1个冠军;在集群测试的8个任务中,英伟达获得7个冠军,微软云获得1个冠军。

实际应用场景服务器用什么语言写,用算力推动深度学习

如前所述,本次MLPerf基准评测涵盖了8类极具代表性的机器学习任务,分别是图像分类(ResNet)、医学图像分割(U-Net3D)、目标物体检测(SSD)、目标物体检测检测(Mask R-CNN) )、语音识别 (RNN-T)、自然语言理解 (BERT)、智能推荐 (DLRM) 和强化学习 (MiniGo)。

为什么 MLPerf? 的 AI 性能测试如此受关注?

是不是因为它最接近用户的使用场景!这一点尤为重要。

就像我们在选择智能手机的时候,市场上有成百上千的机型,它们的设计和定位也千差万别。白领注重品质和可靠性,游戏玩家注重性能,年轻人喜欢拍照,学生更注重性价比,根据自己的使用场景进行选择,从而达到精准定位。MLPerf的应用场景评估?也是为此而设计的。

场景一:图像分类(ResNet)

ResNet 是一个非常经典的深度学习模型,也被称为最典型的计算机视觉应用。对大量图片进行识别和标注,然后进行分类,非常方便高效。ResNet 在此模型训练中检查服务器的性能。

图像分类(ResNet)任务单机训练得分排名

从上图可以看出,浪潮信息的两台经典服务器包揽前两名,NF5488A5性能最高,NF5688M6位居第二。Supermicro的8卡A100-SXM4-80GB(500W)机型性能比NF5488A5低1.6%,排名第三。

看到这里,可能有人会疑惑,为什么只有浪潮和超微使用500W GPU?对其他厂商不公平吗?

图片[1]-2021MLPerf?人工智能测试收官之作正是因为如此-老王博客

事实上,这恰恰证明了他们强大的研发实力。由于浪潮是第一个在服务器上部署8块500W功耗GPU的厂商,并且提供液冷和风冷两种型号,其他品牌的产品同期大部分只能部署4块500W的GPU。在本次测试中,AMD 是第二家与八台 500W GPU 服务器竞争的厂商。

GPU从300W增长到400W再到500W。多卡同时部署时,对服务器有限的空间提出了更高的散热要求,电源和散热的设计难度很大。也正因为如此,在评测中,我们可以观察到各个企事业单位产品的设计研发能力。

场景二:医学图像分割(U-Net3D)

患者去医院拍摄医学影像,包括X光、超声、CT、MRI等。AI可以在极短的时间内对分割后的影像进行分析,给出合理的初步诊断、分析预测,方便诊断.

医学图像分割是医学图像智能分析的一个重要领域,也是计算机辅助诊断、监测、干预和治疗的必要组成部分。分析、合理诊断、预测和预防提供了非常重要的意义和价值。

本次测试主要用于数据训练,测试服务器的硬实力。

医学图像分割(U-Net3D)任务单机训练得分排名

用于 3D 医学图像分割任务的 3D U-Net 模型的整体性能比较。浪潮信息本次只提交了NF5688M6的成绩,可以看出其性能领先第二名技嘉约4.7%。它比排名第三的 Supermicro 领先约 7.7%。相对来说,本次测试的计算任务比较繁重,所以各个产品也拉开了比较明显的差距。

场景三:语音识别(RNN-T)

在一场大型的线上会议中,演讲者所说的一切都实时显示在屏幕上,清晰准确。现在,这样的场景不再需要人力,只能通过人工智能来实现。其背后是语音识别的功劳。

RNN-T模型巧妙地融合了语言模型声学模型,同时进行联合优化,是理论上比较完善的模型结构。它通过一定的思想把语言模型和声学模型的状态结合起来,可以是拼接操作,也可以是直接相加等,所以比较准确。

语音识别(RNN-T)任务单机训练得分排名

语音识别RNNT任务训练的整体性能对比。可以看出NF5488A5的性能是第一,领先第二的NVIDIA约2.6%,领先第三的微软约12.5%。这个测试可以说是兼顾了深度学习各种模型的融合,复杂度很高。浪潮NF5488A5也凭借硬实力创造了新纪录。

以上三种情况只是冰山一角。在 MLPerf 中?基准测试中,一共涵盖了 8 个最接近应用场景的机器学习相关任务,这也是其获得巨大实用价值的关键所在。

浪潮AI服务器,2021年全面收获

作为业界最权威的AI基准,MLPerf? 每年组织两次 AI 推理和 AI 训练性能测试。12月1日公布结果也意味着MLPerf的4项测试?2021年正式结束。今年共有29家国际厂商和研究机构参与,不断突破AI系统在数据中心推理、边缘推理、集群训练、单机训练等各种AI场景中的表现。其中,浪潮信息共获得44个冠军,在MLPerf中排名第一?2021冠军榜,英伟达、戴尔、高通在二、和三、中排名第四。

仔细观察不难发现,与会的厂商和机构选择的硬件基本都差不多。要想获得更高的性能,只能依靠系统设计和优化能力。这里没有捷径。浪潮信息深耕AI服务器设计与优化多年,拥有如此强大的硬实力。

在硬件设计方面,针对AI任务中IO密集传输的普遍瓶颈服务器用什么语言写,浪潮AI服务器以其领先的设计,大大降低了通信延迟,大大提升了AI训练的效率。同时,针对高负载多GPU协同任务调度,NUMA节点与GPU之间的数据传输进行了全面优化和深度调整,保证训练任务中的数据IO不阻塞。此外,在散热方面,A100-SXM-80GB(500W)GPU的功耗非常高。为此,浪潮研发了先进的冷板液冷系统,确保GPU在全功率负载下仍能稳定工作,也是一款AI服务器。在各种测试中表现出色的重要原因之一。

在浪潮AI服务器产品方面,NF5488A5和NF5688M6两款主打机型在今年MLPerf®测试中分别获得18项和15项冠军。他们的成功不是一蹴而就的。多年来积累的技术当然是非常强大的。

MLPerf?的评测可以说为整个2021年的IT行业点亮了一盏明灯,引导大家关注AI实战而非硬件指标。V1.1列表也可以看作是对AI服务器的盘点和总结,具有很大的参考价值和实用价值。从 MLPerf 来看?测试本身,很多优秀的硬件产品在不同的测试阶段都表现出了强大的实力,并且经过各种优化,实现了一次又一次的“横扫榜单”,这是行业用户最希望看到的。一点。测试中不断强大的AI服务器,可以帮助用户更高效地完成训练,并可以尝试以前无法完成的任务,为AI在不同领域的快速发展注入新的活力。

浪潮AI服务器在中国市场占有率连续五年排名第一,目前全球市场占有率也是第一。浪潮信息能够在MLPerf?上取得优异成绩,再次证明了自身的研发实力,对实战应用场景有了更深刻的洞察和理解。另外,浪潮信息在MLPerf中的探索与创新?测试进一步帮助浪潮在实际应用中更好地回馈行业客户,助力其业务发展,从而推动人工智能的快速发展。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论