一文了解智算“基础设施”各类知识点-含资料分享

前言,最近中国信通院发布了《智算基础设施发展研究报告2024》,通过学习可对“智算基础设施有更系统的了解,可以帮助我从产业发展的角度把各类知识点“串起来,概况如下:

  • 1、什么是智算?

  • 2、智算基础设施的体系如何?

  • 3、智算供给的态势如何?

  • 4、驱动智算基础设施建设与发展的几个客观因素?

  • 5、智算基础设施建设时需要考虑的四个核心能力?

  • 6、智算的建设会驱动哪些产业的变化?

一、智算的概念和部署层级

“智算里的“智指人工智能,智算算力即为“人工智能算力”,智算是用于支撑和加速AI人工智能算法模型训练与推理的算力,典型的呈现方式和部署层级可分为三层,分别是芯片级、单服务器节点级、多服务器集群级,逻辑图如下

一文了解智算“基础设施”各类知识点-含资料分享

智算的部署等级,来源:中国信通院

二、智算基础设施的体系架构

智算基础设施,是基于人工智能加速芯片及各类专用芯片等组成的异构计算架构,由各类AI服务器、存储、网络和安全设备为基础,以智算集群为核心载体,可以面向各类AI人工智能的应用场景(训练、推理)提供所需的算力服务、数据服务和算法服务的公共算力基础设施。架构图如下:

一文了解智算“基础设施”各类知识点-含资料分享

智算基础设施技术体系,来源:中国信通院

三、智算“供给的特点和态势

智算基础设施发展的核心就是解决智算算力“供需匹配”和“区域布局”的问题。整体逻辑是国家层面出台政策文件指引建设方向、地方层面推出优惠政策和更细化的指导文件、在区域重点考虑当地的需求如何实现智算资源的拉通和业务需求的整合。核心思路是怎么为“智算需求”的用户提供更优质的智算服务,但是目前依然存在资源分布不均、算力“质量”差距明显的情况

现在是政府参与、智算中心建设由央国企&电信运营商主导、AI云厂商也广泛布局,可提供面向中小企业或个人的“算力资源”使用通路,示意图如下

一文了解智算“基础设施”各类知识点-含资料分享

来源:中国信通院

四、驱动智算发展的几个不同因素

智算中心的建设并不是空穴来风,是技术发展为驱动、业务需求为主导的,报告中指出来四个因素,如下:

1、AI大模型的训练驱动千卡、万卡智算集群的建设,因为全球智算集群迈向“万卡、十万卡时代’,大规模的智算集群建设是全球AI大模型竞争的“入场券”。要训练出全球领先的大模型,万卡级智算集群是势在必行,是在AI科技领域缩小或追平国外的必备基础设施。

2、AI大模型推理应用的智算需求正迎来爆发。随着Llama等开源框架的广泛应用,将加速大模型在各行业各领域落地生成式AI应用,行业模型的推理算力需求也将快速增长,云端推理需求市场占比逐步提升。

3、人工智能大模型将逐步进入广泛投产模式,对智算基建的通用性、低成本、实时性提出更高要求。

4、训练和推理集群搭配,在主打满足模型训练应用的当前,不少主体开始布局推理智算基建,通过建设推理集群满足区域或客户推理业务需求,推理业务的占比会随着市场的城市占据主要份额。

五、智算基础设施建设需要考虑的四大核心能力

智算基础设施的四大核心可以理解为“建设原则”,分别为算力的有效性、集群的稳定性、绿色低碳性、服务易用性;

1、算力有效性:主要指集群算力利用率,其决定了智算基础设施最终的有效算力供给能力,有个值是MFU等于实际可用的算力Flop除以理论可用的FLops,从报告内容看,算力有效性能普遍不高,如果达到40-50%就属于较为优秀的了,部分智算中心在特定条件可超过50%;与选择合适的芯片型号(是H100还是A100)、设备形态(是NVLink还是PCIe)等都有关系,就是我们经常所听到的“存储墙”和“通信墙”的问题如何解决。

2、集群稳定性:这个是大规模训练集群的痛点,H100这类设备比通用服务器故障率要高,而高故障率就会导致训练任务的中断,因此集群稳定性的考虑因素是选择品牌品控好的产品、选择更稳定的网络方案是关键。

3、绿色低碳:我们都听过一句话“算力的尽头是电力”,智算中心是耗电大户,自身能耗和碳排放将带来不小挑战,当前最为先进的智算基础设施单柜能耗已达100+kw,推进部署高集成性智算液冷整机柜,是当前智算基础设施应对高能耗的先进解决方案之一,构建智能化能耗管控平台,实现自动化按需制冷,也是智算基础设施推进低碳减排的重要手段;

4、服务的易用性:建好的智算基础设施最终目的是用起来,针对易用性的三个常见方案有AI云化服务,云化服务是智算基础设施能力触达广大中小企业及个人开发者的重要渠道,用户可以随时随地进行计算资源的访问和应用,无需进行高额的硬件投入或维护,大大降低了AI技术的使用门槛,同时云化服务平台作为用户和智算基础设施之间的桥梁,可将上层的需求和下层的资源紧密结合。除此之外,全栈生态服务是智算基础设施能否为用户提供优质A服务的重要标志,普惠泛在的智算服务是智算基础设施服务发展趋势。

六、“智算基础设施”对相关产业带来的影响

智算基础设施一旦规模化落地,智算中心各项能力一旦成熟以后,对相关产业的影响是很大的,比如可以支撑行业、细分场景的大模型加速落地、各地优质资源相互打通,供给将更加合理。

今天我们就先写到这里,如果你也想获取中国信通院的《智算基础设施发展研究报告2024》,可以给我公众号“IT技术分享-老张”点点关注,在信息栏的聊天框回复“20241107”即可自动获得百度网盘的下载链接。

—-老张会持续通过公众号分享前沿IT技术,创作不易,大家多多点赞和关注!

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注