龙芯中科自主指令集架构授权或将制约国产CPU发展

【天机网IT新闻频道】芯片器件中最著名的产品是CPU。国内CPU产业经历了艰难的发展,关注度越来越高。国产CPU在政务、通信、计算等领域经常可以看到。不过,通用CPU领域仍以国外CPU为主。桌面上有英特尔、AMD,移动端有ARM、高通等公司。国产CPU要脱颖而出,实属不易。

近年来,国内CPU企业一直在发展,寻找破解之道。国内CPU厂商最常见的开发模式是购买指令集架构授权。ARM、MIPS甚至X86都有国内CPU公司授权。购买指令集架构授权无疑是一种高效的方法,相当于在别人打好地基的土地上盖房子。该产品不能称为完全国内独立。但是,授权毕竟是授权,没有相应的产权保护,可能还是会受到限制。

01 龙拱介绍

2021年4月,龙芯中科率先向国内自主迈出一步,宣布推出完全自主的指令集架构:LoongArch,从顶层架构到指令功能和ABI标准完全自主。这表明,龙芯中科未来的CPU将不再使用MIPS指令集架构,而是从今年推出的3A5000开始使用LoongArch架构,这无疑是芯片国产化的一个重要里程碑。

我们参考官方资料,制作了龙芯3A5000的微架构图。我们大致可以看到,3A5000大致分为4个block,每个block包含一个core和一个cache。

根据官方资料,LoongArch 仍然属于 RISC 阵营,具有 RISC 的特性,例如 32 位定长指令、32 个通用寄存器、32 个浮点/向量寄存器。不过LoongArch也做了改进,取消了RISC的指令延迟槽,直接跳转指令的目标地址是相对于PC计算的,增加了相对传输偏移量。

LoongArch 有近 2000 条指令,并充分考虑了兼容性要求。相同的源代码编译成龙芯,在编译成龙芯之前支持的MIPS时,动态执行指令的数量减少了10%-20%,这意味着更高的运行效率和更高的性能。推动。

LoongArch 还深入研究了 MIPS 和 X86、ARM 的特性,可以对这些主流架构进行二进制翻译。可以实现MIPS的100%翻译,实现跨平台兼容。龙芯的目标是到 2025 年消除它。指令集之间的障碍。

2021年7月,龙芯中科发布了两款基于LoongArch指令集架构的处理器:3A5000和3C5000L。3A5000处理器是面向桌面的产品,3C5000L是服务器处理器。3A5000主频2.3Ghz-2.5GHz,4核,每个处理器核心采用64位LA464独立微结构,支持DDR4-3200MHz内存,支持Hyper Transport3.0控制器。3C5000L由4个16核的3A5000封装而成。

3A5000处理器内置安全模块,可有效免疫Meltdown(熔断)和Spectre(幽灵)两大经典CPU漏洞。与上一代3A4000一样,支持内置加解密算法和安全可信模块。用于 2 级类型鉴定测试的 CPU 内置模块。

02 龙芯3A5000机器介绍

龙芯3A5000通用处理器主要应用于消费台式机市场。未来将推出包括台式电脑、笔记本电脑和一体机在内的产品。这次我们拿到了一款搭载3A5000处理器的台式机产品。经典的商用办公控制台风格以黑色为主。前面板提供了一个常规的开关按钮、两个 USB 2.0 端口和两个音频输入/输出端口。

龙芯3A5000整机

主板 I/O 提供一个 VGA 视频端口、一个串行 COM 端口、4 个 USB 2.0 端口、2 个 USB 3.2 Gen1 5Gbps 端口和一个有线网络端口。

主板 I/O

在其他配件上,该主机采用256GB SATA固态,双8GB DDR4 3200MHz内存。显卡为AMD Radeon HD 8750M,显卡I/O提供VGA接口和HDMI接口。

UNILC 2*8GB DDR4 3200MHz 内存

AMD Radeon HD 8750M

拆掉散热器,可以看到这次的主角:龙芯3A5000,龙芯3A5000的芯片代号为“KMYC70”,为纪念朝鲜战争70周年而命名,服务器3C5000L芯片代号为“CPC100”以庆祝中国共产党成立100周年。

本主机中,龙芯3A5000直接焊接封装在主板上,不支持DIY更换。

编译器方面,龙芯3A5000开发了三大编译器GCC、LLVM、GoLang和三大虚拟机Java、JavaScript、.NET。龙芯自有的工控基础操作系统Loongnix和LoongOS已经发布。我们手中的整台龙芯3A5000采用同心UOS系统。由于优化等问题,Loongnix 3A5000主机与其他系统的性能会有所不同。

主机配置

同心UOS系统由国内多家操作系统核心公司自愿发起开发,旨在开发和完善安全、易用、稳定的操作系统产品。也是未来芯片国产化的关键生态步骤。其官网目前开放下载,感兴趣的用户可以到官网下载试用。那么除了同心UOS操作系统,国产自研操作系统麒麟龙芯版也是不错的选择。

03 实际测试:

本次测试涉及的处理器除了龙芯3A5000外,还加入了intel i5 9500六核14nm处理器、国产ARM V8四核7nm处理器和国产ARM V8八核14nm处理器作为对比参考。硬件参数保持不变。

其中intel i5 9500六核14nm架构处理器主频为3.0-4.4Ghz,热设计功耗为65W。国产ARM V8四核7nm处理器主频可达2.6GHz,单芯片可支持64核。另一款国产ARM V8八核14nm处理器,兼容64位ARMv8指令集,主频2.3GHz。

需要提前说明的是,参与测试的四个处理器的核心数是不一样的,所以在多核测试项目中,我们取处理器核心数最高的分数。

基准

UnixBench 性能测试:

现在我们正式开始测试,首先我们还是选择熟悉的UnixBench测试工具。本软件是类Unix(Unix、BSD、Linux)系统下的性能测试工具,广泛用于测试Linux系统主机的性能。可以测试系统调用、读写、进程、图形测试的结果,也是一款对整机进行全方位测试的软件。

图片[1]-龙芯中科自主指令集架构授权或将制约国产CPU发展-老王博客

UnixBench单核、多核性能测试

从测试结果可以看出,龙芯3A5000和国产ARM V8四核7nm处理器的性能非常不错。龙芯3A5000的单核性能达到了1685分,相比上一代龙芯3A4000有非常明显的提升。单核性能已经接近Intel i5 9500六核14nm处理器的水平。这也符合龙芯先通过设计优化提升单核性能,再利用先进技术增加核心数量的升级策略。

在多核性能对比中,龙芯3A5000达到4314分,与国产ARM V8四核7nm的4387分基本持平,但如果和intel i5 9500六核14nm相比,还是有很大差距的。不过4核龙芯3A5000的性能比国产ARM V8八核14nm处理器高出600多分。

SPEC 2006 测试:

接下来我们进行SPEC 2006对比测试,SPEC 2006是一个大型的CPU性能测试项目,重点测试系统的处理器、内存子系统和编译器。它可以测试CPU最基本的定点性能和浮点性能。还需要提前注意的是,测试处理器中的核心数量并不相等,所以我们在多核测试中选择核心数量最多的分数。

SPEC CPU2006 BASE性能测试

这一次,我们将 SPEC 2006 测试分为单核和多核测试。龙芯3A5000单核定点为25.1点,单核浮点为26点。与intel i5 9500六核14nm处理器相比,确实有很大差距,但单核定点处理器堪比国产ARM V8四核7nm处理器,单核浮点略优于国产ARM V8四核处理器。7纳米处理器。与国产ARM V8八核14nm处理器相比,龙芯3A5000的单核定点高了近10点,单核浮点数提高了近一倍。

在多线程测试中,intel i5 9500六核14nm处理器依然表现最好,而龙芯3A5000的多核定点和多核浮点均高于国产ARM V8四核7nm处理器,因为国产ARM V8八核14nm处理器在核数上有一定优势,所以定点和浮点的分数都高于龙芯3A5000和国产ARM V8四核7纳米处理器。

溪流:

Stream是业界主流的内存带宽测试程序,测试行为比较简单可控。该程序对 CPU 的计算能力要求非常低,对 CPU 内存带宽造成很大压力。随着处理器内核数量的增加,内存带宽并不会线性增加,因此内存带宽对于提高多核处理能力越来越重要。

流内存测试

在Stream Copy测试的分项表现中,龙芯3A5000表现相当不错,超越了intel i5 9500六核14nm处理器。其中,Copy单线表现得分16864分,多线表现得分21873分。国产ARM V8八核14nm处理器和国产ARM V8四核7nm处理器的成绩相差不大,但Copy的整体性能比龙芯3A5000略差。

应用测试

事实上,除了处理器的单核和多核基准性能测试外,用户软件应用体验更能直观地反映处理器之间的性能差异。下面我们来看看办公常用的WPS、浏览器和视频播放。设备应用体验。

WPS:

我们会在搭载四处理器的主机上安装同版本的同心UOS操作系统,然后使用WPS办公软件打开10MB(文字+图片)、50M(文字+图片)和50M(文字+图片+视频) ) 单 对于大容量文件,重点测试打开文件的速度来衡量处理器的性能。为了尽可能保证测试数据样本的规律性,每个文档打开5次,然后取平均值。

WPS办公软件打开文档速度对比(时间越短越好)

通过实际测试可以看出,在10MB(文字+图片)文档的打开速度中,国产ARM V8八核14nm处理器用时最短1.47秒,龙芯3A5000打开 1.54 秒的速度。50M(文字+图片)开启速度,国产ARM V8四核7nm处理器耗时3.01秒,50M(文字+图片+视频)测试,国产ARM V8八核 14nm 处理器时间最长的是 4.24 秒,Intel i5 9500 六核 14nm 处理器的最短时间是 2.23 秒。综合来看,intel i5 9500六核14nm处理器的整体性能要好一些,而龙芯3A5000则略优于国产ARM V8四核7nm处理器,而国产ARM V8八核14nm处理器对于小文件有更好的文件打开速度。但是打开大文件的速度并不理想。

浏览器:

浏览器是我们每天观看网页信息和视频的重要应用。目前每个网页基本上都充斥着大量的图形,也会对CPU运行造成很大的负载压力。让我们在浏览器上测试四个处理器的性能。我们同时打开浏览器,加载爱奇艺视频网站,对比打开时间。由于龙芯提供了自己的龙芯浏览器,龙芯3A5000选择了自己的龙芯浏览器V3.1,其他的选择了火狐浏览器进行测试。

浏览器打开爱奇艺网站的速度(时间越短越好) 单位:秒

由于爱奇艺网站上有视频、图片、CSS、JavaScript等,加载页面也对处理器性能提出了一定的要求。通过测试我们可以看到intel i5 9500六核14nm处理器的加载速度更好,1.4秒,龙芯3A5000的1.78秒也很不错。时间最长的是国产ARM。V8 八核 14nm 处理器耗时 2.35 秒。

视频回放:

最后的对比测试是音视频播放性能。我们选择同心UOS操作系统下的默认视频播放器,打开相同大小的1080P视频mp4格式,分别测试四个处理器加载视频的时间。

影院播放器加载1080P MP4视频时间(越短越好)单位:秒

实测可以看出,国产ARM V8四核7nm处理器的加载速度1.43秒,其次是龙芯3A50001.64秒,最慢的是国产ARM V8 八核 14nm 处理器耗时 2.09 秒。此外,值得一提的是,由于龙芯3A5000处理器性能的显着提升,播放4K高清视频的软解能力也得到了进一步提升,无需独立显示。

04 不破不立,不断超越

一直以来,龙芯中科的目标就是让中国人使用完全独立的CPU处理器。20年来,龙拱的出现,让龙芯从这个目标向前迈进了一大步。这是龙芯的一次突破,也是中国自主CPU产业的一个新里程碑。

基于自主指挥系统LoongArch的龙芯3A5000的性能非常令人满意。短期短板是生态建设如何看处理器是不是向量处理器,应用软件适配有待加强。虽然作为过渡阶段,龙芯的二进制翻译系统LAT可以实现跨指令平台应用兼容,也可以运行部分X86/Windows应用软件,但要实现满足各种应用需求的庞大软件生态系统,仍然需要国内软件厂商的集体努力。.

生态所涉及的复杂性,有时比单一的技术还要麻烦。CPU生态需要硬件、系统和用户的支持。龙芯在硬件上已经有龙芯加持的龙芯3A5000,系统有同心UOS、麒麟麒麟等国产操作系统适配。LoongArch 目前最需要的是用户。用户不仅包括消费者,还包括开发者。没有开发者带来的软件生态支持,就没有大量消费者买单,没有用户消费,就没有资金继续研发,所以龙拱大力生态的推广是最重要的一步。此时此刻。Apple M1 被认为是对 Intel 和 Windows 的威胁。

可能有的用户很难理解为什么我们的CPU建了这么多年,国内的CPU生态还没有建立起来。这里我举个例子。前段时间,有消息称英特尔要在欧洲建厂。投资是什么?消息显示,英特尔在整个生命周期的总投资可能超过1000亿美元。即使包括一些国家的政策补贴,英特尔每年在芯片研发上的投入也高达100亿美元。整个国内CPU产业的实际投入远远低于英特尔这样的公司,根本无法满足所有芯片公司的需求,大部分只是勉强维持研发。而且,国外的CPU和操作系统已经在软件生态和工业体系中运行了几十年。因为所谓的差在千里之外,一个小细节的错误,就会让一条投入数亿美元的产品线失效。没有资本,必然会失败。门槛高,进入行业难。随着时间的推移,活下来的人越来越少。

在这样的环境下,龙芯推出独立指令集架构LoongArch,实属不易。准确的说,像龙芯这样仍然坚持做国产自主芯片的公司,是值得尊重的。

没有经历过令人毛骨悚然的经历,梅花又怎会香,独立之路极其艰辛,龙子的勇气令人钦佩。现在龙芯已经迈出了最艰难的第一步,接下来就是生态的建立。目前龙芯中科已经成立龙拱社区,将组建龙拱联盟免费开放龙拱。希望有更多的开发者能够参与进来,让国产自主CPU走得更远如何看处理器是不是向量处理器,也希望龙芯中科能给我们带来全新的自主技术。国产CPU生态领域。

类型:广告

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论