Arm新服务器芯片设计性能提升 50%

时间:2021-04-28 16:48:58       来源:芯东西

4 月 28 日报道,今日,英国芯片设计公司 Arm 公布了 Neoverse V1 和 N2 服务器芯片平台的最新性能数据,其处理能力比上一代 N1 提高了 40%~50%。

Neoverse V1 平台首次支持可伸缩矢量扩展(SVE),N2 平台则率先采用全新 Armv9 架构的平台,拥有比 N1 更高的核心数、性能和能效。两者都支持新的数据类型和指令集,并针对高性能计算和 AI 等工作负载做了优化。

去年 9 月,Arm 发布新的 Neoverse N2 和 V1 平台,但并未提及详细性能。如今 Arm 正式公开两款全新平台的性能、能效、总拥有成本等细节,以及腾讯、阿里等合作伙伴采用该设计的案例,并宣布基于 N2 的芯片预计将在今年下半年推出。

尽管 Arm 并未直接对比 Neoverse 平台与英特尔、AMD 产品的性能,但从图中可以看到,Neoverse 系列芯片已经非常有竞争力。

同时,Arm 也发布了构建基于 Neoverse V1 和 N2 平台高性能 SoC 的关键部件 ——CMN-700。

Arm 基础设施事业部高级副总裁兼总经理 Chris Bergey 称,Arm 想改变行业对部署基础设施的思维,每一个创新者都不应该被要求在性能与能耗之间进行抉择,而 Neoverse 平台提供了两者兼得的最佳解决方案。

一、Arm Neoverse 已走过十年历程

Arm 基础设施业务高级副总裁 Chris Bergey 说:“现在是时候让 Neoverse 跨越所有基础设施了。”

从起步至今,Arm Neoverse 已经走过十年历程。

早期其基础设施内核是 Cortex-A72,有出色的能效比、媲美竞争对手的单核性能表现,通过合作伙伴的智能网卡、DPU、物联网芯片在网络及边缘应用场景中发挥价值。

随后,2019 年,Neoverse N1 和 CMN-600 Mesh 网络将线性性能扩展到非常高的内核数量,更加适合云服务。据其分享,N1 单核性能已经比肩或超过传统 SMT 线程的性能。

Arm 技术专家称,尽管其竞争对手陆续推出新的芯片,但它们仍无法与 N1 的单线程性能匹敌。

通过 Neoverse V1 和 N2,Arm 想进一步改变业界对部署基础设施的看法,使得大家无需在性能与能效之间做选择,而是两者兼得。

Arm 还将帮助合作伙伴在单芯片或多芯片封装中,都能以同质或异质的方式提供解决方案。

据 Arm 技术专家介绍,Arm 与领先的晶圆代工厂深入合作,在多个先进的工艺节点上开发出了性能和功耗优化的 POP IP。

随着 Project Cassini 和 Arm SystemReady 启动,Arm 的标准和认证项目计划正持续推进,并逐步扩展到基础设施和物联网边缘。

今天,Arm 正式揭晓 Neoverse V1 和 N2 平台的技术细节。

二、Neoverse V1:机器学习工作负载可提升 4 倍

Neoverse V1 是 Arm 强调性能优先的新型计算系列的第一个平台,客户可基于该架构灵活地为大型数据中心服务器设计芯片。

这是 Arm 迄今设计的最宽微架构,Arm 预期它在多核配置中能胜过市场上其他产品。

Arm 为其加宽了微架构,并增加了缓冲区和队列的深度,因此在运行中能容纳更多运行中的指令,支持高性能和百万兆级计算等市场应用。

与 N1 相比,Neoverse V1 带来了 50% 的性能提升,在各种矢量工作负责中性能优化约 1.8 倍,通过各种新的指令,机器学习工作负载最高可优化 4 倍。

客户可以自由选择适当的 IO 尺寸,并利用芯片集和多芯片功能来提高内核数量和性能,不过采用的方法是组合可提高良品率、降低成本的小型芯片。

法国芯片公司 SiPearl 和韩国电子通信研究所( ETRI)的高性能计算(SoC)均可展现这些设计元素的优势,这被 Arm 看作是高性能计算的发展方向。

V1 新增的一个关键功能是 SVE,可使其在每核性能方面领先,使用 SVE 的代码寿命更长,并为 SoC 设计者提供更好的灵活性。

SVE 为开发者提供了一套全新的矢量编程和数据操作工具,能直接取用相同代码进行自动矢量化,处理速度相比 NEON 可提高 3.5 倍。

由于 SVE 与矢量长度无关,因此相同代码不加修改即可在 V1 上运行,如果在 V1 上加倍 SVE 矢量的宽度,对应处理速度也几乎提速 1 倍。

三、Neoverse N2:单线程性能提升了 40%

另一种芯片微架构 Arm Neoverse N2 平台,是第一个基于 Arm 公司最新 Armv9 架构的内核,也是第一个具备 SVE2 功能的平台。

Neoverse N2 在安全性、能耗以及性能方面都有全面提升,并能为用户减少 TCO 的每瓦性能表现。相比于 N1,N2 在保持相同水平的功率和面积效率的基础上,单线程性能提升了 40%。

N2 具备良好的可扩展性,可以横跨从高吞吐量计算到功率与尺寸受限的边缘和 5G 应用场景,并在这些应用中带来优于 N1 的表现。例如,在云端上提升 1.3 倍的 NGINX,在 5G 边缘应用上提升 1.2 倍的 DPDK 数据包处理。

SVE2 是 Armv9 的重要特性之一,能显著提升从云到边缘的性能效率、可扩展性及安全性。

和 SVE 一样,SVE2 也属于与矢量长度无关的指令集,用户只需编写、编译一次代码,即可在各种硬件上运行,还能充分利用可用的矢量带宽。

在机器学习、数字信号处理、多媒体、5G 系统等广泛应用场景中,SVE2 不仅带来大幅性能提升,还带来了 SVE 具备的编程简易性及可移植性等优势。

四、新 Mesh 互连技术助力打造异构 SoC

构建基于 V1 和 N2 高性能 SoC 的关键要素,就是 Arm Neoverse CMN-700 Mesh 互连技术。

CMN-600 为可扩展、高内核数、高性能 SoC 奠定了基础,在此基础上,新一代 Arm Neoverse CMN-700 被 Arm 称作是业界最先进的 Mesh 互连技术,在每个矢量上进一步提升了性能 —— 从内核的数量、缓存的大小,到附加内存和 IO 设备的数量和类型。

对于基于 V1 的高性能计算平台而言,支持高带宽 DDR5 和 HBM 内存系统至关重要,而 CMN-700 即可实现这一点。

其另一个关注重点是对多芯片功能的助益,以便为数据中心资源池化的增长提供更多定制选项。CMN-700 中还增加了 CXL 功能,可为内存扩展和智能一致性加速器构建主机或端点设备。

多芯片功能的一项重要升级是针对传统多插槽设计和新的芯片集或多芯片集成提高性能和优化功能,这为突破传统的硅掩膜版限制提供新的机遇,同时也使得紧密耦合的异构计算能拥有更大的灵活性。

五、腾讯、阿里均已测试 Neoverse 平台,服务器性能提升明显

基于 Neoverse 平台的新功能,Arm 合作伙伴及客户能更加顺利地实现从云端到边缘的部署。

Honeycomb.io 证实说,他们在 15 小时内便完成将其接收量应用程序移植到 AWS Gravition2 上,同时工作流程的实例使用量减少了 30%。

在云服务方面,腾讯与 Arm 持续合作,腾讯在硬件测试和软件支持方面持续投入,使其在云应用上能采用 Arm Neoverse 技术,每瓦性能表现出色,软件部分既支持已编译和解译的代码库,也支持为这些代码库提供支撑的微服务框架。

腾讯专项测试技术中心总监黄闻欣(Victor Huang)说,通过 TencentBench 测试框架发现,得益于更多可扩展的 CPU 核心数,Arm 服务器比传统的服务器性能表现更强劲,尤其在 AI 推理和图片处理领域优势非常明显。

阿里云在即将上线的基于 Arm 架构 ECS 实例上完成了测试,并在 SPECjbb 测试数据中表现出色,通过双方紧密合作,基于 Arm 架构运行的 DragonWell JDK 性能提高了 50%。用户及开发者现可到阿里云网站上注册,获取 Arm 系列实例的受邀测试。

亚马逊云科技(AWS)通过收购 Annapurna Labs 部门成为 Arm Neoverse 的早期使用者,其自研服务器芯片 AWS Gravition 正快速布建于 AWS 的各个服务区域。而过去 AWS 推出的新实例中,有近一半是基于 Graviton2 平台的。

除了在主流应用用例中,Graviton2 和 Neoverse 也被应用于更多专用处理的应用场景。例如在 EDA 方面,Arm 获得了所有主要工具供应商的支持,并且详细计划了 Arm 如何将 EDA 的工作负载移上云端。

甲骨文(Oracle)已宣布计划在 Oracle 云基础设施上采用 Ampere Altra CPU,为各种工作负载提供最佳的性价比。

在高性能计算(HPC)方面,今年 4 月,印度电子信息技术部(MeitY)宣布将加入法国芯片公司(SiPearl)和韩国电子通信研究所(ETRI)的行列,采用 Neoverse V1 驱动国家级百万兆级高性能计算项目。

在通信方面,Marvell 发布了基于 Neoverse N2 的 OCTEON 系列网络解决方案,预计将于 2021 年底前试产,比上一代 OCTEON 的性能提升 3 倍。

结语:Arm 正大举攻向服务器芯片市场

对于目前运行的各种工作负载和应用程序,Arm 正尝试推出能兼顾高算力和低功耗的计算解决方案,这对于主导 x86 架构的服务器处理器供应商英特尔和 AMD 无疑正造成新的冲击。

但 Arm 表示,意味着,“一刀切”计算方法不再是合适的解决方案。这是对使用 x86 架构的主要服务器供应商英特尔和 AMD 一次攻击。

今天 Arm 新公布的讯息还只是冰山一角。总体来看,Arm 正在提高其在计算机市场的竞争力。随着 Arm 处理器大量走向云端服务器,已经垄断绝大多数手机处理器市场的 Arm,将会无处不在。

关键词: Arm