前言,当下智算时代最火的“AI芯片”公司非英伟达莫属,我们耳熟能详的A100、H100到B200都是英伟达(NVIDIA)推出的数据中心领域旗舰型号,但是最近有几个朋友找我咨询H100 NVL以及H200 NVL,从名字上看多了几个字母“NVL”,在产品参数和定位上和标准的型号有何区别呢?下面我汇总了H100 NVL、H200 NVL、GH200、GB200和GB200 NVL4展开聊聊!
一、H100 NVL产品介绍
和标准的H100 PCIe有所不同,H100 NVL属于双GPU产品,2张卡在顶部配备了3张NVLink连接器(如上图),须使用两个相邻PCIe的插槽,在运行大型语言模型(LLM)时,H100 NVL凭借更大的显存可驾驭更庞大的数据规模,下表将H100 NVL与H100 SXM和标准版的H100 PCIe进行了对比,不难发现,H100 NVL里的单卡性能是和H100 SXM一致,要高于H100 PCIe的标准版,且在显存方面有了小幅提升(提供188GB HBM3显存,单卡显存94GB)。
Form Factor | H100 SXM | H100 PCIe | H100 NVL1 |
---|---|---|---|
FP64 | 34 teraFLOPS | 26 teraFLOPS | 68 teraFLOPs |
FP64 Tensor Core | 67 teraFLOPS | 51 teraFLOPS | 134 teraFLOPs |
FP32 | 67 teraFLOPS | 51 teraFLOPS | 134 teraFLOPs |
TF32 Tensor Core | 989 teraFLOPS2 | 756 teraFLOPS2 | 1,979 teraFLOPs2 |
BFLOAT16 Tensor Core | 1,979 teraFLOPS2 | 1,513 teraFLOPS2 | 3,958 teraFLOPs2 |
FP16 Tensor Core | 1,979 teraFLOPS2 | 1,513 teraFLOPS2 | 3,958 teraFLOPs2 |
FP8 Tensor Core | 3,958 teraFLOPS2 | 3,026 teraFLOPS2 | 7,916 teraFLOPs2 |
INT8 Tensor Core | 3,958 TOPS2 | 3,026 TOPS2 | 7,916 TOPS2 |
GPU memory | 80GB | 80GB | 188GB |
GPU memory bandwidth | 3.35TB/s | 2TB/s | 7.8TB/s3 |
Decoders | 7 NVDEC 7 JPEG |
7 NVDEC 7 JPEG |
14 NVDEC 14 JPEG |
Max thermal design power (TDP) | Up to 700W (configurable) | 300-350W (configurable) | 2x 350-400W (configurable) |
Multi-Instance GPUs | Up to 7 MIGS @ 10GB each | Up to 14 MIGS @ 12GB each | |
Form factor | SXM | PCIe dual-slot air-cooled |
2x PCIe dual-slot air-cooled |
Interconnect | NVLink: 900GB/s PCIe Gen5: 128GB/s |
NVLink: 600GB/s PCIe Gen5: 128GB/s |
NVLink: 600GB/s PCIe Gen5: 128GB/s |
二、H200 NVL产品介绍
H200 NVL产品按照英伟达官方的定位支持2或4张PCIe卡通过NVlink桥机器互联,参数情况如下,可以发现H200 NVL单个芯片的参数要弱于H200 SXM的参数,但是要略优于H100 PCIe标准版,核心优势是可支持4张PCIe的NVlink的全互联,显存打通,支持更大规模的模型数据量。
三、GH200的产品介绍
单个GH200芯片由一个72核Grace CPU和一个H100 GPU组成,通过NVLink?-C2C 技术将 Grace 和 Hopper 架构相结合,内部结构的逻辑图如下,可见CPU到GPU间是基于NVlink技术,互联带宽高达900GB/s,GPU芯片自身包括了96GB的HBM3显存,这个产品并未得到大规模普及。
四、GB200的产品介绍
GB200是以B200为基础,定位是Grace Blackwell超级芯片,芯片更大包括了2个B200和1个Grace CPU(和之前的GH200类似),老张结合已公开材料进行的总结:
-
GB200可以理解是基于B200的小模组,英伟达的独创2GPU+1CPU。
-
GB200提供了384G的HBM3e内存,就是B200的内存容量x2,Grace CPU可以提供72个ARM核心
-
2个B200的GPU到CPU的互联链路是NVlink C2C,双向带宽是900GB/s
-
GB200芯片支持16TB/s的HBM内存带宽(是2个B200的和)以及3.6TB/s的NVlink带宽(B200是1.8TB/s,H100是900GB/s);
五、GB200 NVL4的产品介绍
GB200 NVL4 超级芯片其中集成了2个Grace CPU 和 4个Blackwell GPU,HBM 内存池容量达 1.3TB,相当于 2 组 GB200 Grace Blackwell 超级芯片,整体功耗5.4kw,彰显了英伟达在芯片封装和集成技术上的高超水平。基于GB200 NVL4的服务器平台不仅具有强大的计算能力,还拥有灵活的扩展性。其PCIe连接器和高速NVLink通信接口使得该平台能够轻松连接多个外部设备或扩展卡,从而满足各种类扩展和互联需求。
—-老张会持续通过公众号分享前沿IT技术,创作不易,大家多多点赞和关注!
相关文章推荐