一分钟了解智算中心GPU选型的8个要点

前言,最近和很多朋友交流智算中心建设的内容,涉及“投建运”相关的各个领域,要说讨论最多的要数“GPU相关”的话题,一是智算的核心-AI智能算力是由GPU等AI芯片来提供,二是GPU在智算中心产品的资金比重也是最高的(GPU服务器占比约70-80%,而GPU芯片在GPU服务器内的占比同样高达70-80%),三是智算中心场景和规模的不同对GPU类型的要求也不同,在选型时需要综合考虑众多因素,今天通过8个方面我们简单聊聊!

一、性能和价格

智算中心方案设计和产品选型的重要因素之一是提供更具性价比的“算力服务”,结合以往经验,我们会列举目前市场主流的GPU产品和价格,分析出每P/价格,给客户汇报,引导客户选择,比如很多客户不确定选择A100还是H100,通过性价比分析可以得出H100单卡是FP16稠密算力1P对应价格约是25w/卡,而A100单卡是FP16稠密算力约为0.3P,价格却为H100的一半,显然H100的性价比更优,价格是经常波动的,我整理了10余款英伟达主流的GPU型号的参数查询工具(文章最后有获取方式);

一分钟了解智算中心GPU选型的8个要点

二、产品领先性

我们都知道B200芯片目前还未正式批量供应,但国内竟然有客户发出了B200产品的采购需求(好几个朋友找我咨询),虽然导致这个情况的原因大功率是客户对GPU新品的上市节奏不了解导致的,但是能从侧面反映一个问题,就是追求产品的领先性,我们知道一张B200是目前主流H100、H200性能的2.25倍(如上图所示,单卡FP16稠密算力高达2.25P),智算中心建成后的“使用周期”或者叫“回本周期”在3-5年,芯片技术迭代很快,为了保持足够竞争力,在建设初期的GPU选型上有必要考虑产品领先性。

一分钟了解智算中心GPU选型的8个要点

三、生态成熟度

GPU厂商除了市占率最高的NVIDIA,可选的品牌和型号也是非常多,比如国外品牌有AMD和Intel,国内品牌有HW、KLX、HWJ、TS、BR、MRXC等等十多家,我们在方案设计产品选型时不能只看纸面数据,要看产品的生态成熟度,建好只是第一步,用好才是关键,举个例子,AMD的 MI325X和Intel的gaudi2“高低two”,从纸面参数都不逊色于H100,为何市场不买账呢?我认为核心的原因是在生态成熟度,和英伟达CUDA生态还有很大差距,在客户使用上的复杂度,对厂商的依赖性太高,对市场化的“算力租赁”而言比较困难。

一分钟了解智算中心GPU选型的8个要点

四、业务的场景

智算时代,智算中心的核心业务承载为大模型相关的训练、微调和推理等,是不是有一种GPU全能搞定呢,答案是否定的,即便是H100性能如此强悍,但是考虑到推理成本时,依然不如目前主流的4090,目前智算中心市场已经形成了共识大模型的集群训练优选H100H200,而在推理侧则更多考虑RTX40904090D等。

一分钟了解智算中心GPU选型的8个要点

五、国产芯片占比

随着我国智算中心建设的持续推进以及国产AI芯片的迭代和发展,IDC 2024H1的报告显示,国内市场AI芯片的出货量国产AI芯片占比达到了20%(英伟达是80%),要知道2023全年的国产AI芯片占比为10%,在智算领域国家为了鼓励国产AI芯片的落地普及也和政策优惠补贴关联,因此目前在智算中心设计时都会看到国产AI芯片的占比,在很多地方也建设了全国产AI芯片的智算中心,就在前两天由于老美持续对我国的科技公司进行“制裁”的动作,以中国互联网协会、中国半导体行业协会为代表的四个协会同时发声,呼吁“审慎选择采购美国芯片”,这无疑也对国产AI芯片的发展提供了更大的舞台

一分钟了解智算中心GPU选型的8个要点

六、集群的规模

国内目前主流的智算中心集群规模为千卡到万卡,而国外目前已落地10万卡规模的智算中心(马斯克的xAI,网上有视频,大家随便一搜就能看到),其中GPU选择的是英伟达H100,那么问题来了。除了英伟达外,我们国产芯片能否做到呢?结合网上公开数据,目前国产芯片普遍在千卡集群上已经成熟,真正万卡集群的落地(真万卡)的案例目前还不多。因此在GPU选择时还有充分考虑GPU产品集群部署的能力(不是简单的把GPU服务器通网络互联,达到万卡就算成功,在集群性能利用率方面同样达标);

一分钟了解智算中心GPU选型的8个要点

七、产品的供应

GPU产品供应能力是落地的关键,前面方案设计的再好,如果不能按时交付一切都不成立,因此智算中心项目在招标时都明确写明了建设的节奏和对供应交付的要求,越快交付完成就能尽快获得绿电的“指标”,在后期的运营中也能更有竞争力。受限于国内芯片代工的能力,目前很多芯片的生产还依赖于国外,这也是国产AI芯片大规模普及需要解决的核心问题。

八、厂商兜底能力

越来越多智算中心建设时会规划一定比例的国产AI算力(常见有10-20%),很多芯片厂商为了加速产品落地,会和甲方承诺提供“算力包销”的兜底服务,从甲方的角度会非常感兴趣,通过兜底可以将“回本”的风险将至最低,当然能提供兜底还有第三方服务商和实力雄厚的互联网、大模型类公司,时间原因我们就不过多展开了。

前些天整理了目前比较火的英伟达的20个型号GPU,后面也会保持更新,如果想获取excel表格需要给公众号“IT技术分享-老张”点关注后并在信息栏的聊天框里输入“20241031”,可自动获得资料的百度网盘下载链接!

—-老张会持续通过公众号分享前沿IT技术,创作不易,大家多多点赞和关注!

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注