2021世界人工智能大会将于7月8日在上海举办

2021世界人工智能大会将于7月8日至10日在上海举行。作为世界人工智能大会的最高荣誉,SAIL奖始终秉承“追求卓越,引领未来”的理念,秉承“高端化、国际化、专业化、市场化、智能化”的原则,在全球范围内探索人工智能领域是在中国具有高度认可度和美誉度的人工智能项目,具有改善人类福祉的意义,在全球范围内激发技术和应用创新的方向性突破。规模,并且正在或将改变人工智能项目的未来生活。

SAIL奖设立奖项并形成年度名单。即日起,我们将继续针对2021 SAIL Awards TOP30榜单入选项目进行系列专题报道,供读者阅读。

今天的主题是AI芯片。

以下项目按项目单位笔划排序

Cloud 7nm GPGPU芯片产品BI

上海天枢智芯半导体有限公司

上海天枢智芯半导体有限公司(“天枢智芯”)于2018年正式启动GPGPU芯片设计,是国内首家GPGPU高端芯片和超级算力提供商。公司以“成为智能社会的使能者”为使命,专注于云服务器级通用高性能计算芯片,瞄准以云计算、人工智能、数字化转型为代表的数据驱动技术市场解决核心算力瓶颈。. 专注打造自主可控、世界级通用、标准、高性能的云计算GPGPU芯片,从芯片端解决算力问题;推出面向5G应用需求的云推理芯片,兼容进口主流GPGPU生态系统,

公司发布的云端7纳米芯片产品BI,实现了国产高性能GPGPU历史上从“0到1”的突破。采用完全自主研发的核心知识产权,极其先进的7nm工艺和2.5D CoWoS封装工艺,性能卓越。无图形渲染专有模块,具有更灵活的可编程性,突出通用计算能力,并针对AI训练和推理进行了优化。BI芯片即将进入量产和商业交付,产品研发和商业应用进度领先国内同行1-2年。

寒武纪思源290智能芯片和加速卡,轩思1000智能加速器

上海寒武纪信息技术有限公司

云智能芯片具有卓越的性能和能效,可覆盖视觉处理、语音处理、自然语言处理、推荐系统、搜索引擎、传统机器学习等应用领域。寒武纪是全球为数不多的全面系统掌握智能芯片核心技术及其基础系统软件开发和产品化的企业之一。智能芯片产品和平台化基础系统软件。在该项目中,寒武纪研发了一款速度快、能耗低的智能芯片,以满足智能处理对智能算力和能耗的需求。

寒武纪纪思源290智能芯片及加速卡、炫思1000智能加速器于2021年1月21日量产后首次正式亮相。思源290智能芯片是寒武纪首款训练芯片。采用台积电7nm先进制程工艺,集成460亿个晶体管,采用MLUv02扩展架构,全面支持AI训练、推理或混合人工智能计算加速任务。该芯片具有多项关键技术创新。MLU-Link™多核互连技术提供高带宽、多链路的互连解决方案;HBM2内存提供AI训练所需的高内存带宽;vMLU帮助客户实现云虚拟化和Container级别的资源隔离和热迁移。与思源270芯片相比,思源290芯片实现峰值算力提升4倍,内存带宽提升12倍,片间通信带宽提升19倍。新架构与7nm工艺相结合,思源290可以提供更好的性能功耗比和多MLU系统的扩展能力。寒武纪MLU290-M5智能加速卡搭载思源290智能芯片,采用开放加速模块OAM设计,拥有64个MLU Cores,1.23TB/s内存带宽和全新的MLU-Link™多核互连技术,在350W的最大散热功耗下提供高达1024 TOPS(INT4))的AI算力。芯片间通信带宽增加了 19 倍。新架构与7nm工艺相结合,思源290可以提供更好的性能功耗比和多MLU系统的扩展能力。寒武纪MLU290-M5智能加速卡搭载思源290智能芯片,采用开放加速模块OAM设计易语言网络加速器源码,拥有64个MLU Cores,1.23TB/s内存带宽和全新的MLU-Link™多核互连技术,在350W的最大散热功耗下提供高达1024 TOPS(INT4))的AI算力。芯片间通信带宽增加了 19 倍。新架构与7nm工艺相结合,思源290可以提供更好的性能功耗比和多MLU系统的扩展能力。寒武纪MLU290-M5智能加速卡搭载思源290智能芯片,采用开放加速模块OAM设计,拥有64个MLU Cores,1.23TB/s内存带宽和全新的MLU-Link™多核互连技术,在350W的最大散热功耗下提供高达1024 TOPS(INT4))的AI算力。

寒武纪玄思1000智能加速器在2U机箱内集成4颗思源290智能芯片、高速本地闪存、Mellanox InfiniBand网络,对外提供高速MLU-Link™接口,打破传统数据中心智能化芯片、服务器、POD、集群 横向扩展架构实现了计算中心层面的AI算力纵向扩展,是AI算力高度集成的平台。寒武纪训练产品线采用自适应精准训练方案,为互联网、金融、交通、能源、电力、制造等领域的复杂人工智能应用场景提供充足的算力,推动人工智能赋能产业升级。

基于GPGPU软件定义的片上异构通用人工智能加速器 – Goldwasser

上海登临科技有限公司

登临科技Goldwasser™是目前国内量产的GPGPU高性能通用人工智能加速器,成功填补了国内高性能GPGPU在业务、技术和产品方面的空白。Goldwasser采用完全自主创新的架构实现(Minsky™软件定义GPGPU-based on-chip异构计算架构),解决了通用性和高效性的双重问题。Goldwasser的硬件可以直接支持CUDA/OpenCL加速,通过片上高带宽、低延迟的内存子系统技术结合任务级并行技术实现高性能和低功耗。与国际主流云推理卡相比,芯片实测能效提高3倍,精度更准确。Goldwasser已于2020年底完成台积电12nm工艺的流片和量产。在成熟的12nm/14nm工艺量产的基础上,Goldwasser具有很强的自主可控性。

鼎麟创新的基于GPGPU、软件定义的片上异构架构系统已申请多项国内外核心专利,部分专利已获得授权。国际主流云加速器的产品在通用性、兼容性(兼容现有软件生态系统)、能效等方面都可以比较。不仅打破了国内市场被国外产品垄断的局面,也使登林科技的国际化成为可能。

图片[1]-2021世界人工智能大会将于7月8日在上海举办-老王博客

强调:

一种。采用完全自主创新的架构(Minsky™软件定义GPGPU-based片上异构计算架构),解决了通用性和高效性的双重问题

湾。可实现高性能低功耗,与国际主流云推理卡相比性能提升3倍

C。硬件支持CUDA/OpenCl加速,无缝接入现有软件生态

d。自主研发,已在成熟的12nm/14nm工艺上实现量产

e. 已在国内外申请多项核心架构专利,部分已获得授权

用于通用人工智能的类脑计算芯片

清华大学

本项目将面向计算机科学的机器学习和面向脑科学的神经形态计算与类脑计算学术思想的跨范式异构融合相结合,开发出相应架构的天机芯片以支持通用人工智能的发展,并展示天机-基于无人驾驶的智能自行车平台。天机及平台相关成果作为封面论文发表在《自然》杂志上,被中国科学院院士、中科院院士评选为2019年中国十大科技进步、排名第一中国十大科技进步,15项世界领先的互联网科技成果,孵化了北京灵曦科技。有限公司。

类脑计算通过学习脑科学原理来开发通用人工智能。它是国际半导体协会确定的后摩尔时代的两项新技术之一(另一项是量子计算),是“脑科学与类脑研究”(中国脑计划)的主要研究内容,而缺乏系统的理论框架,高效的计算芯片和平台是其主要挑战。为此,本项目将面向计算机科学的机器学习和面向脑科学的神经形态计算与类脑计算学术思想的跨范式异构融合相结合,实现两者优势互补,支持通用人工智能发展。 . 此外,开发了相应架构的天机芯片,运行时内部数据访问带宽高达600GB/s;提出了通过与环境交互来迭代开发类脑计算的想法。视觉和听觉检测识别、目标跟踪、避障、平衡控制、自主决策等功能齐全,功耗低。天玑及平台相关成果以封面论文形式发表在《自然》杂志上,实现了我国在人工智能和芯片领域的突破。2019年被《自然》主编Magdalena Skipper评为人工智能领域的重要里程碑,中科院院士、中科院院士评选出中国十大科技进步、中国十大科技进步和15项世界领先的互联网科技成果。该项目孵化了国家高新技术企业——北京灵曦科技有限公司,推动该领域的产业转型。已完成12nm量产流片工作,开发了相应的系统平台和软件工具链。整体计算能效比领先同类芯片。该项目孵化了国家高新技术企业——北京灵曦科技有限公司,推动该领域的产业转型。已完成12nm量产流片工作,开发了相应的系统平台和软件工具链。整体计算能效比领先同类芯片。该项目孵化了国家高新技术企业——北京灵曦科技有限公司,推动该领域的产业转型。已完成12nm量产流片工作,开发了相应的系统平台和软件工具链。整体计算能效比领先同类芯片。

高性能数据流AI芯片CAISA

深圳市坤运信息科技有限公司

高性能数据流AI芯片CAISA是鲲云科技自主研发的一款AI芯片产品,基于在人工智能定制数据流领域30多年的技术积累,为人工智能图像提供高性能计算加速. 流式人工智能技术的量产和商业化已经实现。CAISA基于自主研发的自定义数据流架构,有别于传统的冯诺依曼指令集架构。它通过控制数据的流转顺序来管理计算执行顺序,大大提高了芯片的利用效率,实现了实测算力。技术突破可实现最大芯片利用率95.4%,是同类产品的11.6倍。同时,CAISA依托简单易用的RainBuilder编译工具链,实现对主流框架和算法的通用支持,为客户提供性价比最优的算力。CAISA芯片作为数据流AI芯片,通过底层架构的创新实现了实测算力的突破,为AI芯片研发和AI产业发展探索了一条新路径。

CAISA芯片基于自主研发的定制数据流架构,提出了一种全新的AI计算平台架构实现方式——不同于传统计算平台所依赖的指令集架构,该架构不存在指令依赖,解决了冯诺依曼系统面临的指挥墙问题。CAISA 架构依靠数据流的流动顺序来控制计算的执行顺序。数据计算和数据流的重叠压缩了计算资源的每一个空闲时钟;通过计算资源的动态平衡,消除流水线的性能瓶颈;通过数据流的时空映射,最大化复用芯片内的数据流带宽,减少对外部存储带宽的需求。通过这些技术创新,芯片的利用效率得到了极大的提升。基于数据流技术,CNN算法的计算数据在CAISA芯片架构下实现不间断连续运行,最高芯片利用率可达95.4%。在相同的峰值计算能力下,可以获得类似的GPU。该产品拥有三倍以上实测算力,为用户提供更高性价比的算力。CNN算法的计算数据在CAISA芯片架构中实现了不间断连续运行,最高可以达到95.4%的芯片利用率。在相同的峰值计算能力下,可以获得类似的GPU。该产品拥有三倍以上实测算力,为用户提供更高性价比的算力。CNN算法的计算数据在CAISA芯片架构中实现了不间断连续运行,最高可以达到95.4%的芯片利用率。在相同的峰值计算能力下,可以获得类似的GPU。该产品拥有三倍以上实测算力易语言网络加速器源码,为用户提供更高性价比的算力。

基于自主研发的定制数据流架构,CAISA实现了芯片利用率的技术突破,打破了算力对芯片制造技术的高度依赖,为行业客户提供了更多算力和高性价比的芯片产品选择。目前,鲲云科技已经发布了多款基于CAISA的数据流AI计算平台,包括星空加速卡X3、星空边缘站X6A和星空加速卡X9,可以满足AI计算加速的需求在边缘和高性能场景中。应用于智能安全监管、智能油田、智能制造、智能电网等领域,大大降低了客户人工智能应用的落地成本。

作为全球首款商用数据流AI芯片,CAISA已完成与飞腾、麒麟操作系统、浪潮等新创服务商的产品兼容,在算力性价比、芯片利用率、实测性能、处理延迟。领先,为底层AI算力支撑提供新选择,填补国内数据流AI推理芯片领域的技术空白,荣获高交会优秀产品奖、世界计算机大会创新技术与产品应用奖、全球人工智能产品应用博览会产品金奖等荣誉。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论