数据中心半导体市场在2022年继续增长。由于在性能和功耗效率方面的领先,AMD进一步提高了其在服务器市场的份额。该公司在年底开始出货其第四代Epyc处理器,而英特尔将其新的至强处理器的普遍供应时间推迟到2023年初。通过VMware和其他知名软件公司的支持,数据处理单元(DPU)成为主流。
数据中心人工智能芯片的市场继续膨胀,Nvidia数据中心业务部门在22年第二季度的季度收入超过了30亿美元。该公司推出了最新的人工智能GPU--Hopper,比上一代Ampere的性能提升了2倍。英特尔的Habana子公司开始运送第二代训练芯片,称为Gaudi2,而谷歌推出了第四代张量处理单元(TPUv4)。
AMD收购了DPU芯片制造商Pensando,以获得与Nvidia和英特尔竞争的产品系列。数据中心半导体开始采用芯粒chiplets技术,数据中心将其功耗提高到一个新高。
虽然AMD、英特尔和Nvidia继续从这个市场获得利益,但MPR预计2023年初创企业之间会出现动荡。估值缩水,性能标准提高,开发成本上升,将导致整合。
英特尔在CPU竞赛中滑落
AMD继续其在服务器市场的征程,发布了第四代Epyc处理器。这一代号为Genoa的设计,使英特尔Ice Lake-SP每个插座的性能提高了一倍以上。它具有总共96个CPU核心和384MB的缓存,远远超过任何竞争性的服务器芯片。Genoa支持最新的I/O标准,包括PCIe Gen5和CXL 1.0。
根据公布的SPECrate结果,Genoa顶级型号的多线程得分是上一代产品Milan的两倍。
英特尔的至强路线图,如图1所示,在2022年遭遇延迟。下一代至强--蓝宝石激流SPR--的全面上市时间推迟到2023年1月。这种设计将消除Genoa相对于Ice Lake的许多优势。第五代处理器Emerald Rapids和第六代处理器Granite Rapids的进一步推迟,可能使AMD在性能上长期领先。不过,延迟确实让英特尔采取了一些积极措施。它修改了路线图,为Sierra Forest增加了低功耗内核,可以让其更好地与AMD和Arm处理器竞争。
(英特尔的第四代蓝宝石激流处理器,原定于2022年底到达市场,滑落到2023年1月。第五代和第六代的进一步延迟可能导致AMD夺取更高的市场份额。)
Arm芯片继续在数据中心形成势头。中国零售商阿里巴巴在2022年初发布了其首个基于Arm v9的服务器级CPU--倚天710。该设计有128个核心,采用5纳米技术制造。它与AMD的Epyc 7763的多线程性能相匹配,在SPECint2017上得到440分。阿里巴巴在2012年第四季度开始在倚天上运行其云服务,并计划到2025年将其20%的内部操作放在Arm CPU上。虽然Arm在功耗方面比X86有优势,但它相对缺乏兼容软件,将继续阻碍2023年市场份额的增长。
人工智能芯片无处不在
Nvidia的下一代AI体系结构Hopper为竞争者设定了新的性能标准。与A100相比,H100的原始吞吐量增加了三倍,同时将功耗推至700W的新高。它支持8位浮点(FP8)数据类型,与FP16相比,性能提高了一倍,并有望在大型网络训练中获得更大的收益。
Nvidia公司还宣布了其基于Arm的人工智能Grace处理器体系结构的细节。这些处理器计划在23年第二季度投入量产。该设计最令人印象深刻的特点是其DRAM子系统,它使用了超过10,000条数据线来实现546GB/s的LPDDR5X峰值带宽。格雷斯提供了一组NVLink连接,每个方向都能提供450GB/s的综合带宽。当与Hopper一起运行时,Grace实现了6倍内存容量的有效提升。Grace-Hopper组合可以在内部存储巨大的模型,如GPT-3,从而避免了困扰其他GPU加速器的性能瓶颈。
英特尔的Habana子公司宣布了其下一代训练处理器Gaudi2。该设计在当时的MLPerf基准测试中表现良好,但Nvidia的H100扩大了Nvidia的领先地位。与此同时,谷歌将其第四代TPU(TPUv4)投入量产,相对于TPUv3,每个核心的矩阵单元数量增加了一倍,使用Bfloat16格式的峰值性能提高到每秒275万亿次。
Google公司采用TPU进行所有的训练和推理工作,绕开了Nvidia GPU。然而,根据MLPerf的结果,Nvidia的A100在大型和小型集群中的表现与TPUv4相似,而新的H100提高了谷歌下一个设计的标准。这家搜索巨头似乎致力于开发自己的人工智能加速器,但为了跟上Nvidia的步伐,它必须在芯片设计和软件开发方面投入大量资金。
针对数据中心的人工智能初创公司在2022年发布了几个公告。位于英国的芯片公司Graphcore披露了一款名为Bow(发音类似于'go')的新加速器。由于支持FP16,该芯片可以处理训练,但它在MLPerf得分方面比较落后,而且没有看到多少人接受。推出产品的类似公司包括Cerebras、FuriosaAI和Tachyum。
这些公司很难创建一个为其芯片体系结构优化神经网络的软件栈,他们在性能上无法与Nvidia竞争。Cerebras、SambaNova和其他资金充足的初创公司以人工智能训练为目标,但尚未提交MLPerf结果。中国的初创公司如燧原Enflame和天数智芯Iluvatar也是如此。亚马逊也没有公布MLPerf结果,尽管其Trainium芯片已投入量产。
为数据中心设计人工智能芯片的公司已经获得了数十亿美元的估值,并获得了数亿美元的资金。除非这些初创公司在2023年迅速增加销售量,否则将看到较弱的人工智能公司在2023年继续倒闭。拥有大量现金的初创公司可以坚持到2024年,但他们的高估值将使额外的资金难以找到。与此同时,Nvidia继续设定新的性能标准。由于数据中心有广泛的人工智能软件要求,Nvidia的竞争可能来自英特尔和高通等大型芯片供应商(以及谷歌和亚马逊等主要云服务提供商),而不是来自初创企业。
数据中心的更多处理单元
包含DPU的服务器可以从CPU卸载网络和存储功能,为操作系统和系统应用腾出容量。DPU通常包含一个Arm CPU、一个网络接口卡和可编程的数据加速引擎。在人工智能和分析的性能需求驱动下,它们越来越受欢迎。
通过收购Pensando,AMD加入了英特尔和Nvidia的行列,在提供CPU和GPU的同时提供DPU。在交易之前,Pensando的出货量已经超过10万台,并占据了两位数的市场份额。这次收购使AMD在DPU的出货量上超越了Nvidia和英特尔。AMD对赛灵思的收购也使其获得了基于FPGA的智能网卡。2022年,英特尔为谷歌推出了其首个DPU产品Mount Evans,而英伟达则开始对其第二代设计Bluefield-3进行采样。
英特尔在2022年交付了其第一个独立的数据中心GPU:Flex系列140和170。它们基于该公司在其Arc桌面GPU中推出的Xe-HPG体系结构。高端的Flex 170型号使用32位数据提供16Tflop/s,与低端的AMD和Nvidia GPU竞争。但低INT8性能(Flex140为105 TOPS,Flex1 170为250 TOPS)将阻止这些产品作为主要的AI加速器。MPR认为它们将转而针对视频转码、云游戏和其他面向图形的任务。
2022年,数据中心也成为芯粒技术的主要受益者,鉴于其较高的价格,它们可以更容易地对冲额外的制造成本。英特尔的蓝宝石激流为至强带来了芯粒技术,但只有高核数的型号才会有。据称,英伟达正在为下一代人工智能加速器设计小芯粒,其他初创公司也是如此。英特尔基于小芯粒的GPU,也就是Ponte Vecchio在2022年已经向美国阿贡国家实验室发货。
然而,芯粒技术产生了新的问题,热量是最突出的。产品的TDP已经高达700W,这意味着未来的服务器产品必须解决与加速卡设计和服务器热量有关的问题。
数据中心即将发生的重大变化
AI模型规模的指数级增长正在增加吞吐率需求。大型模型需要更多的内存,更快的CPU-内存通信,以及更高的性能。其结果是数据中心服务器的根本变化。AI芯片和DPU已经加入了传统的CPU和GPU,成为关键的服务器组件。
缩小半导体工艺节点中晶体管几何形状的高成本阻碍了数据中心芯片遵循摩尔定律。相反,小芯粒正在实现在提供更多晶体管的同时保持低成本的技术路径。功耗增加正在成为数据中心的下一个抑制因素。数据中心芯片的TDP已经上升到700W之高,需要重新设计服务器、机架和冷却系统。
2022年,数据中心市场躲过了一次行业放缓。AMD获得了更多的份额,而英特尔的下一代产品则遭遇延误。Nvidia制定了另一个AI性能标准,DPU成为主流。虽然英特尔在2023年迎头赶上,但我们预计AMD和Nvidia将在性能竞赛中领先。
2022年主要数据中心处理器事件
2022年,人工智能芯片的世界充满了产品发布公告。Nvidia发布了Hopper,它提供的矩阵吞吐量是Ampere的两倍(见2022年4月MPR)。Graphcore的新人工智能加速器Bow,通过使用台积电的晶圆片上(WoW)封装技术,比上一代产品有了很大的性能提升(见2022年3月的MPR)。谷歌在11月向大众市场部署了其TPUv4(见2022年11月MPR)。欧洲初创公司Tachyum宣布其用于服务器、超级计算机和人工智能的通用处理器(见2022年6月MPR)。另一家人工智能芯片初创公司壁仞Biren Technologies交付了其基于GPU的芯片BR100(见2022年9月MPR)。创造了晶圆级芯片的初创公司Cerebras在HotChips上介绍了其WSE2体系结构(见2022年9月MPR)。
Arm继续在数据中心领域取得进展。亚马逊推出了其基于Arm CPU的第三代Graviton处理器(见2022年1月的MPR)。阿里巴巴开发了其第一个Arm v9 CPU,并将其部署在倚天710服务器处理器中(见2022年2月的MPR)。Nvidia在9月发布了其Grace处理器的细节(见MPR 2022年9月)。Arm公司推出了Neoverse V2,实现了两代微体系结构的跳跃(见2022年10月MPR)。
Intel的Xeon路线图被推迟了(见2022年3月MPR),而AMD发布了第四代Epyc处理器,相对于其前代产品,在内核数量、内存带宽和I/O速度方面提高了50%(见2022年11月MPR)。通过收购Pensando,它加入了英特尔和Nvidia的行列,在提供CPU和GPU的同时提供DPU(见2022年5月的MPR)。数据中心芯片功耗继续增加(见2022年6月MPR)。
12月出现了MLPerf 2.1基准测试,显示Nvidia保持其性能领先(见MPR 2022年12月)。现在是英特尔一部分的哈巴纳实验室在早些时候对面向训练的人工智能芯片Gaudi2进行了采样(见MPR 2022年6月)。
数据中心篇二:
来源: 中国电子报
数据中心芯片市场风起云涌
英特尔和谷歌云联手推出了“Mount Evans”芯片以提高数据中心性能;Arm为云计算和数据中心推出新一代芯片技术“Neoverse V2”;英特尔推新款数据中心GPU产品“Flex”;平头哥宣布自研的CPU“倚天710”已在阿里云数据中心实现大规模部署应用……一时间,数据中心芯片市场可谓风起云涌。
建信股权首席投资官李瑞指出:“数据中心市场已成为全球半导体产业的重要增长点,东数西算等大型工程的实施,进一步提升了对DPU这类数据中心核心芯片的需求。”
图片
DPU差异化竞争成市场新热点
后摩尔时代,随着带宽不断提升,海量数据涌入,一些“CPU做不好,GPU做不了”的复杂数据处理工作,如网络协议处理、存储压缩、数据加密等,开始逐渐转向能够重新分配算力和优化算力资源的DPU。DPU因此被列为CPU、GPU之外的第三个主力芯片,成为新一代数据中心创新范式。
赛迪顾问的数据显示,从2023年开始,全球DPU市场规模将突破百亿美元,并进入年增长率超过50%的高速快车道。其中,中国DPU市场规模在2023年将超过300亿元,实现跳跃式增长。
阿里巴巴集团研究员、阿里云弹性计算产品线负责人张献涛坦言,对于云厂商而言,DPU是一个软硬件技术栈结合极其密切的工作,是软件定义的计算架构,DPU必须以自研为主,做到相关软硬件技术栈完全可控,且经过超大规模验证,而生产通用DPU的公司很难满足云厂商的需求。
一方面,云计算市场集中度较高,伴随云计算业务规模持续扩大,资源争抢、算力损失、性能瓶颈等问题日益严峻,云厂商迫切需要寻求破局之法。而通过虚拟化的方式减轻CPU内核负担,实现降本增效的DPU就成了云厂商不得不做的选择。另一方面,云厂商对于自身业务需求更为了解,因此自研DPU事半功倍。此外,DPU是由软件定义的架构,由客户需求或业务发展形态驱动,与客户整个后端软件栈结合非常紧密,很难做到通用程度。相较之下,云厂商更有机会获得差异化竞争优势。
英伟达、英特尔、Marvell等传统芯片厂商在DPU赛道上的竞争也相当激烈。作为DPU最大推手,英伟达在软硬件研发方面抢占了先机,BlueField-2、BlueField-3、BlueField-4等系列DPU产品及工具包DOCA(线上数据中心基础设施体系结构)等的推出受到业界广泛关注。英特尔则是以IPU对标DPU,IPU将承担原本由CPU处理的存储、网络虚拟化等基础设施层功能,从而释放CPU算力。此外,AMD公司通过收购赛灵思、Pensando等公司,快速补充了自身DPU产品生产能力。
中科驭数、云豹智能、星云智联等初创公司展现出良好发展势头。中科驭数第三代DPU芯片研发迭代已经接近尾声,第二代DPU芯片K2于今年初投片。云豹智能打造了目前为止国内最大量商用的DPU智能网卡。
“虽然国内厂商在芯片产品化环节相比国外一线厂商还有差距,但是对于DPU架构的理解却很独到。而且,我国目前在数据中心这个领域,无论是市场规模增速,还是用户数量,相较于国外都有着巨大优势。”中科院计算所研究员鄢贵海认为,国内厂商有望充分利用这一“应用势能”,加快发展步伐,在DPU赛道与国外厂商竞争。
绿色低碳促进芯片技术升级
数据中心正在加速朝着绿色低碳方向转型升级。而芯片制造工艺繁多,不少制造工序的功耗压力都比较大。据悉,过去几年,CPU、GPU和AI芯片的功耗增加到了300W甚至600W。如今,数据中心芯片市场上的主流选手,无论是芯片厂商,还是云厂商、初创公司等,均采取了相应的布局。
除了最重要的运算效能以外,功耗与效能功耗比也成了目前科技市场对芯片产品优劣评判的主要标准。高性能计算可以提高算力和性能,降低功耗和成本,又具备多类型任务的处理能力,能够较好地实现绿色低碳任务,受到新一代数据中心青睐。
据悉,英伟达推出的Grace CPU超级芯片就是一款面向AI基础设施和高性能计算的数据中心专属CPU。AMD计划在2025年之前,将旗下AI与HPC加速数据中心平台的能源效率提高30倍以上。国内浪潮、曙光、华为等服务器企业,以及网宿科技旗下的绿色云图、高澜股份等解决方案提供商,也在加大液冷领域的投入。
不过,正如英特尔中国区云兼行业解决方案部总经理梁雅莉所言,数据中心“绿色化”并非某个公司单打独斗就能完成,需要整个生态系统共同孵化。数据中心液冷散热模式的规范和标准需要联合云服务厂商、OEM、ODM共同制定推广,整个行业仍在摸索中前进。
数据中心篇三:
来源:半导体行业观察
数据中心芯片TOP 5玩家,第一名营收大跌
市场研究公司 650 Group 最近分享了幻灯片,展示了包括英特尔、NVIDIA 和 AMD 在内的主要半导体公司的数据中心收入。
650 Group 显示了选定数据中心公司的供应商定位,包括 Intel、NVIDIA、AMD、Broadcom 和 Marvell。据该研究公司称,人工智能和云服务器将在改变供应商定位和供应商对每个云提供商的偏好方面发挥重要作用。如今,云提供商还要求每台服务器更高的 ASP 和每台服务器更多的加速器。
在数据中心收入细分方面,英特尔仍位居榜首,但蓝色巨人从 2021 年底开始大幅下滑,收入从大约 80 亿美元下降到近一半。NVIDIA位居第二,自2022年初以来,两大巨头之间的差距已经缩小。对AI和HPC的巨大需求导致NVIDIA DC业务的爆发式增长,但进入2022年第四季度,该公司出现了小幅下滑,这也是体现在最近的财报上。
Broadcom 位居第三,AMD 位居第四。AMD 正在数据中心领域慢慢取得进展。他们的 EPYC CPU 和 Instinct 加速器表现非常好,看起来该公司到 2023 年底将在服务器领域突破 30% 的市场份额。您还可以注意到,自 2020 年以来,AMD 的数据中心收入一直呈上升趋势。
转向包括服务器和智能 NIC 在内的服务器出货量,x86 大部分持平,预计将保持这种趋势。AMD 和英特尔 CPU 更新将决定 x86 的性能,而 Arm(非 x86)芯片的增长也反映了 AI/ML 出货量的增长,后者以总出货量约 2100 万台位居榜首。这是NVIDIA 保持主导地位的主要增长领域,预计其他领域也将效仿。
英特尔,反击AMD
在服务器领域被 AMD 打得遍体鳞伤之后,英特尔希望通过明年的芯片产品止住服务器市场的血。
英特尔首席财务官戴夫·辛斯纳 (Dave Zinsner) 上周在摩根士丹利技术、媒体和电信会议上表示,这些与众不同的产品将是将是 2024 年推出的 Sierra Forest 和 Granite Rapids。“我们会放弃 Emerald [Rapids],但真正重要的产品……能够产生重大影响的是 Sierra Forest 和 Granite Rapids……就我们的竞争地位而言,”Zinsner 说。
英特尔当前的服务器产品是代号为 Sapphire Rapids 的 Xeon 芯片。该芯片制造商今年晚些时候将推出其代号为 Emerald Rapids 的继任者,它提供渐进的性能升级。不过Emerald Rapids 将更像是通往 2024 年发布的差异化芯片的桥梁,但它不会阻止该公司从 AMD 手中夺走的市场份额损失。
“我们将在 [2023] 第一季度的市场份额下降。我们预计这一年会稳定下来——我不会称之为胜利。我会称之为'我们正在减缓股票流失',”英特尔首席财务官戴夫·辛斯纳 (Dave Zinsner) 在摩根士丹利技术、媒体和电信投资者会议上表示。
AMD 充分利用了英特尔对其服务器产品路线图的延迟和管理不善,Sapphire Rapids 等芯片被多次延迟。
根据 Mercury Research 的数据,去年第四季度英特尔的服务器市场份额为 82.4%,低于 2021 年同期的 89.3%。去年第四季度,AMD 的服务器市场份额为 17.6%,高于 2021 年同期的 10.7%。
AMD 的下一个大芯片版本是 Bergamot,它将于今年上半年推出。该芯片基于与 Genoa 相同的指令集,但内核更多,频率更低。它针对密集的服务器。“它针对云原生进行了优化,因此它不是 96 核集群,而是 128 核。它的运行峰值频率与Genoa不同,”AMD 首席技术官 Mark Papermaster 在上周的摩根士丹利技术会议上表示。
Zinsner 说,Sierra Forest 和 Granite Rapids 将稳定英特尔的服务器产品有几个原因。
“相对于客户的需求以及竞争对手的需求,Granite [Rapids] 的性能将非常出色,”Zinsner 说。
Granite Rapids 将拥有性能核心或“P”核心,而 Sierra Forest 将成为英特尔首款具有高能效“E”核心的核心。英特尔已经在其 PC 芯片中混合了性能和节能内核。
Sierra Forest 芯片和 Bergamot 一样,都是针对云原生应用。
HPE 宣称需要能够高效运行云原生应用程序的专用服务器。HPE 的 RL300 ProLiant Gen11 Arm 服务器运行在 Ampere 基于 Arm 的 Altra 和 Altra Max 芯片上,面向云原生应用程序。HPE 选择了 Arm,因为它认为 x86 芯片太耗电,而且设计用于运行遗留数据中心应用程序。
英特尔 Sapphire Rapids 的持续增长是在服务器市场低迷的情况下进行的,这也伤害了 AMD。科技公司正在削减预算,这减缓了向当前一代服务器芯片的过渡。服务器的成本在平台层面也有所增加,芯片制造商正在努力清理服务器芯片的过剩库存。
考虑到所有因素,“Sapphire Rapids 的接收情况非常好......在某些工作负载中实际上表现非常出色,”Zinsner 说。
英特尔将在 Intel 3 工艺上生产 Granite Rapids 和 Sierra Forest 芯片,该公司表示,与基于 Intel 4 工艺的芯片相比,这种芯片将提供“每瓦性能进一步提高 18%”,后者本身提供“晶体管增加约 20%”每瓦性能”,与用于 Sapphire Rapids 的 Intel 7 相比。
与 Sapphire Rapids 一样,下一代 Emerald Rapids 将基于 Intel 7 制造。英特尔不会在 Intel 4 工艺上制造服务器芯片,而是用于制造 PC 芯片,如将于今年晚些时候发布的 Meteor Lake .
“我们将在 2024 年进入 Intel 3,”Zinsner 说,并补充说“我们在 ETA 上进展顺利”,英特尔芯片的这些工艺包括 Sierra Forest 和 Granite Rapids。