前言,GPU服务器和液冷技术都是目前IT领域比较火的两个话题,随着前端时间网上曝光的马斯克的xAI十万卡H100 GPU集群采用了液冷方案,如此大规模的冷板式液冷+GPU服务器的应用案例,又给“液冷市场加了一把火,这几天好几个朋友找我咨询液冷的方案,到底GPU服务器采用液冷有哪些优势,我们国内智算中心如果也想用液冷方案会有哪些挑战呢?
一、液冷方案+GPU服务器优势分析
1、从节能散热方面:以冷板式液冷为例,代替了传统的CPU、GPU芯片的风冷散热器,在散热效率方面效率更高(就是更省电,能够实现更低的PUE),技术细节不在本文中展开了,后面找机会再单独分析。
2、从部署密度方面:我们从xAI的液冷集群视频仲可以看到,一个机柜部署了8台4U高度的H100液冷整机,从设备角度液冷方案相比风冷的散热器对空间要求更低,液冷通常采用单机柜、多机柜的设计,实现机房空间利用率更高。
3、GPU和整机系统的使用寿命:服务器和GPU卡这类IT产品的故障率&寿命和工作负载、温度、空气灰尘有关,液冷方案(CPU、GPU)不在依赖于高功率风扇,温度更稳定,空气流通更平和(暴力风冷会将更多空气中的灰尘带到服务器内部),从长期来看用液冷有助于设备平稳运行。
二、液冷方案在国内智算中心落地的挑战
1、风冷改液冷带来成本变化:液冷发展多年这里我们不再讨论冷板式液冷的成熟度,从H100整机改冷板的成本角度分析,国内目前还没有标准的液冷H100整机,就需要进行二次液冷改造(会带来质保方面隐患),每台设备成本预计增加10w左右(包括设备本身以及配套系统,下图是CDU);
2、智算中心机房环境的挑战:单风冷机柜设备密度的增加,肯定会对供电提出更高的要求,如果同样部署8台4U的H100整机,每个机柜50KW的供电,就需要进行供电改造,当然还要包括承重、液冷综合系统的改造。
3、液冷系统运维方面的挑战:液冷系统建设和应用之后,对维护人员和运维系统也会带来新的挑战,比如需要对人员进行系统性的培训,对运维系统进行重新升级,才能保证出状况后的及时处理,当然对于不差钱的客户会要求厂商提供驻场和现场备件,这个也是为了提供问题处理的时效性。
4、其他方面的挑战:现在国内H100类整机供应也存在不稳定、多品牌、多形态(有4U、6U、8U)的情况,这对规模化的液冷改装和部署是极不友好的,在风冷可解的维度,我认为国内现阶段还是以风冷为主,大规模液冷落地要等到下一代B200了,因为B200整机自身就是基于液冷冷板式设计的,因此我们的智算中心规划时有必要提前做好液冷的预案。
—-老张会持续通过公众号分享前沿IT技术,创作不易,大家多多点赞和关注!