一文了解智算中心的“建设流程”

智算中心项目金额巨大、动辄大几千万到几个亿,建设周期也相对较长,短的也需要至少2-3个月,最近和不少有智算中心建设需求的客户交流都聊到“建设的流程或者步骤”是怎样的?为什么在去年会出现“百模大战”阶段“得GPU者得天下”的现象,主要是GPU产品短期导致大家把精力都投入在“买卡”上,其实智算中心建设是一个系统性的工程,也需要循序科学合理的流程方法,今天我们从8个方面简单聊聊。

一文了解智算中心的“建设流程”

一、可行性研究阶段

智算中心领域我们经常会听到一个术语是“可行性研究报告”简称可研报告,这个报告决定了项目是否获批,一般是给政府或者央国企的领导进行申请和汇报用,通常是由第三方设计院或者产品方案厂商输出,主要内容是调研市场最新数据、国家和地方政策的文件,评估建设需求和潜在用户群体;明确 AIDC 的目标与功能,包括所需的计算能力、数据存储与处理需求;执行技术和经济可行性研究,评估项目的可持续性与盈利模式等

二、选址与环境评估

目前智算中心的综合竞争力主要集中在算力价格、政策补贴和综合服务能力上,选择绿电丰富、有良好自然资源(水&风以及政策补贴(如算力券等)区域是提高市场化运营竞争力的关键,因此需要综合考虑能源成本、气候条件、网络基础设施等因素,选择最佳地点;进行环境影响评估,确保项目符合环保和可持续性标准。

三、资金筹集与投资结构确定:

这个环节一句话总结就是钱从哪里来,依据项目需求确定资金来源,可能包括企业投资、政府资助、银行贷款、融资租赁机构等;制定投资结构,明确股权分配和投资回报机制,据了解智算中心的SPV公司基本上100%需要筹集资金(靠自己兜里那点钱肯定是不够的),一是因为投资金额大分担资金压力,二也是分担资金风险,所以现在很多金融租赁公司在智算中心市场也非常活跃(主要帮建设方提供资金支持,从而获得收益)。

四、智算中心设计与建设:

这个阶段是主要是设备选型、方案规划,需要确定是训练还是推理、算力规模(如FP16算力大小)、算力类型(如选NV还是国产或者搭配),风冷还是液冷还是组合、网络(选IB还是Roce)、存储、安全及运维运营的方案涉及等。通常需要委托专业机构进行整体设计,确保技术领先和未来可扩展性;当然在过程中也会选定IDC服务商和IT基础设施供应商;

五、设备采购与交付:

这个阶段根据设计规范采购所需的高性能AI计算设备、并行文件存储系统、RDMA网络设备等,其中就包括了我们讨论最多的“买卡”和交付供应,受多种因素影响,尤其是GPU类产品的价格和供应存在很大的不确定性,采购来只是开始,还需要按需进行实施交付以及系统的配置调优

六、运营准备与人员培训:

始于建设,成于运营,智算中心对运营团队的能力要求是很高的,通常需要组建专业的运营团队,制定运营策略和管理流程;对运营人员开展专业培训,以确保智算中心在运维和运营阶段能够顺利开展

七、试运营与优化:

智算中心建成以及运营团队组建完成后,往往还需要启动试运营阶段,收集用户反馈,对服务进行优化;调整运营策略以更好地满足用户需求。

八、正式运营与持续改进:

这个是长期过程,智算中心正式投入运营,需为各类用户提供各类计算、存储和网络等服务;定期评估服务效果,并根据技术革新和市场变化进行必要的升级与改进。

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注