全球首个基于云原生的图神经网络训练控制器“DGLOperator”

近日,360(股票代码:601360.SH,简称360))开源了全球首款基于云原生的图神经网络训练控制器“DGL Operator”。DGL Operator是360智能工程部AI平台团队开发维护的基于云原生技术栈和DGL图神经网络算法框架的多机训练控制器。

使用 DGL Operator,开发人员可以自动创建、配置和管理复杂的 DGL 分布式训练任务,简化开发分布式训练的准备工作,并启用大规模图训练场景。过去以“天”计算的图神经网络(以下简称“GNN”)模型的准备和构建时间可以通过DGL Operator实现“分钟”,快速得到想要的算法模型。训练控制器的开源从工业应用层面为GNN分布式训练提供了另一种可能。基于云原生技术栈,打通了大规模图训练实验与工业应用的关键环节,

推出GNN训练控制器,实现“一键式”云端训练

近两年,随着GNN在社交网络、推荐系统、金融风控、生命科学、流量预测等领域的广泛应用,越来越多的GNN项目和应用涌现,如何快速搭建的问题也越来越多。 GNN 模型变得越来越困难。更多的关注。常见的深度学习框架在卷积神经网络“CNN”和循环神经网络“RNN”等领域提供了大量开箱即用的接口,但在构建 GNN 模型方面捉襟见肘,缺乏有效的开发框架。在此背景下,纽约大学和亚马逊联合开发了 DGL 框架,可以实现开箱即用的 GNN 构建。

但在工业场景中,工程师在基于DGL开发构建GNN模型时,往往需要处理数千万甚至数十亿节点或边的大图,单机训练已经不能满足开发者的需求。2020年,DGL原生支持分布式训练,从算法框架层面赋予训练大规模图的能力。但是,在实际应用中,仍然存在很多限制和挑战。例如,用户无法在触发切图和分布式训练命令的过程中实现工作流的自动化;训练完成后,有些资源需要手动释放,无法自动释放资源。

可以说,DGL作为GNN领域的事实标准,在算法端提供了分布式训练能力,但没有优化相应的底层基础设施,不足以支撑生产级自动化场景。为解决DGL原生分布式训练的问题,360的DGLOperator提供简单、便捷、开箱即用的模型训练体验,致力于降低DGL用户在云原生技术栈上训练GNN模型的难度,无需关注分布式相关系统的复杂配置,只需提交代码即可实现“一键式”云训练。

图片[1]-全球首个基于云原生的图神经网络训练控制器“DGLOperator”-老王博客

如今,机器学习领域的龙头企业正在使用越来越大的数据集和参数,不断刷新数据训练量最大的模型记录。360智能工程部AI平台团队一直关注机器学习、深度学习底层基础设施、训练框架的开发,深刻认识到超大规模深度学习模型更难的问题在于在分布式训练中。由于关注底层基础设施,开发了DGL Operator。在开发过程中,我们与DGL(AWS)的创始团队和最大的云原生机器学习开源社区(Kubeflow)进行了沟通和合作,并在这些分支中扩展了360。

360倡导共享共治推动开源生态建设

事实上,360创始人兼董事长周鸿祎是开源协作精神的忠实拥护者。作为中国最早的互联网创业者,周鸿祎始终认为,没有开源软件,中国的互联网可能不会有快速的发展;没有开源的Android系统,中国手机行业就不可能席卷全球;没有开源代码,中国的人工智能产业更不可能发展得如此蓬勃。

根据开源软件公司 Red Hat 的数据,全球 90% 以上的 IT 公司都在使用开源软件,而根据 Synopsys 的数据,全球 98% 的代码库都包含开源代码。在中国,学术界、工业界和科研界对开源的态度都发生了阶段性变化。在开发之初,很多人认为开源与业务没有直接关系。然而,开源社区的协作模式已经改变和颠覆了传统的工作方式。开源也成为我国在基础软件层面必须考虑的一条路径。对此,周鸿祎表示,“我认为开源不仅仅是一种软件开发方式,也是一种经济发展形式和合作创新机制。社会主义的优点之一就是专心做大事,而开源是新时代的集中力量办大事。”

但是,在很多企业看来,开源和商业化是矛盾的。“这几年,我们享受了一些开源的红利,但是有些公司把国外开源的东西拿来变成自己的,优化后变成了闭源,这种方式很难产生持续的创新。 ” 在周鸿祎“共享共治用matlab的神经网络工具箱实现三层bp网络,奉献至上”的理念指导下,360是业内践行开源精神最彻底的公司之一。重要的推动力。

事实上,DGL Operator 只是 360 在开源方向上一系列举措中的最新举措。未来用matlab的神经网络工具箱实现三层bp网络,360将继续秉承系统思维、底层视角和开源精神,开发和开源更多具有行业价值的关键技术,推动中国开源生态建设和前沿发展技术。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论