时至今日,如果说清华系撑起了中国大模型创业的半壁江山,那 AI Infra 这条赛道绝对是清华系「上阵师徒兵」的又一波创业豪赌:媒体所实验室孵化的清昂智能、高性能计算机研究中心牵头的清程极智、NICS-EFC 实验室孕育出的无问芯穹……AI Infra 赛道的明星创企几乎都来自清华各大实验室,而硅基流动和潞晨科技的创始人袁进辉和尤洋也均属「清华代表队」。当前,在这层创业要解决的问题也比较明确,主要就是面向上下游,把各类模型同芯片深度适配,一方面减少算力资源闲置现象,另一方面则实现模型应用的提速降本。不过,作为中间层,模型、应用和硬件层正处在瞬息万变之间,这意味着 AI Infra 的突破方向也在随之调整,值此之际,该方向的创业也不断面临质疑和些许阵痛,例如:
在海外,软件层创业似乎相对国内更容易:首先,海外市场有一套成熟的订阅软件付费方法,其次,由于英伟达统一了市场,基于英伟达去做会更简单。中美市场存在些许差异,在应用的多样性上双方是类似的,都要去支持不同应用,比较大的区别在于对底层芯片的支持,海外主要由英伟达和 AMD 瓜分天下,需要适配的芯片较少,创业可能相对国内好做。不过,从另外一个角度来看,海外市场反而也会因为有巨头的存在,必要性不太强,国内芯片厂商长期来说还会处于分散的状态,这种情况下,对不同国产芯片的支持就显得比较重要。有业内人士曾向 AI 科技评论分析过,在海外像 Coreweave、Lambda Labs 这样的小型云其实是有机会的,不过,现阶段附加值有限,即便是 Coreweave 都有些像是英伟达的「白手套」。另外,海外一切以 GPU 为核心,产业链的核心定价权都由能否拿到足够多的卡来决定,以规模为核心。很多创业公司甚至没法获得「白手套」的身份,且做的也仅仅是资产租赁生意,有短期的红利,但不是长期事业。目前来看,海内外走向两个极端,海外被巨头垄断,而国内则过于分散。国内的芯片格局有些类似于「战国时代」,各家都在争夺技术高地。一方面,芯片设计中不同的处理器架构和指令集设计会直接影响芯片性能和效率,尽管大体上设计理念和架构相近,但在具体实现和芯片制造过程中,各厂商的技术路线与细节处理上存在差异,这造成了芯片性能和兼容性等方面的区别。另一方面,虽然在芯片设计及前端的 IC 设计环节已取得一定进展,但芯片生产制造以及配套软件生态的建设相对较弱,尤其是软件开发方面的投入相较于硬件设计来说还有待加强,这就导致了芯片碎片化问题较为严重。据 AI 科技评论了解,目前英伟达的软件占比在 2: 1,而国内甚至还不到 1: 2,因为国内厂商主要还在跑产能,保证交货量,软件生态肯定相对来讲要弱一些。同时,国内算力其实并非不够,反而是太多了,问题关键在于「富裕但不匹配」,真正能用于大模型训练的集群不够集中和规模化。国内有约十多万张 A100 和 H100,但配有万卡集群的只有头部三四个玩家,这些卡中超半数属于头部大厂,但大厂却因集群不是一个业务部门独占,导致无法集中使用算力,而剩下一部分则分散在三五百家不同的中小型企业、园区及金融机构中。算力分散化导致大量算力未集中用于大模型训练,不仅造成了算力资源闲置,也限制了国产算力资源能力的发挥。当前业内多有提及的 GPU 泡沫或者说算力通缩现象也是正在发生的事实,这种情况下,国内大量自建算力中心自持资产则显得不一定理智。有业者曾向 AI 科技评论分析,由于 GPU 性能提升和迭代速度远高于 CPU,所以 GPU 的整个贬值速度或者摊销的时间必须更短,但国内许多智算中心动辄 5 年、8 年时间摊销,这种现象显然不合理,CPU 最多也就 5 年摊销。这些问题也恰好为 AI Infra 创业带来了空间——无问芯穹是国内少数选择了异构混训这条路径的创企,主要通过异构多种 GPU 卡来同时混训一个大模型,地方政府、大模型厂商和偏研究型的单位都有这方面需求。在无问芯穹创始人夏立雪看来,「异构混训的难点主要在于,不同能力、背景的员工怎样一起做一个大任务,其中会存在 GPU 性能如何预测,任务怎样拆分、分配让硬件各司其职,同时,怎样在通信上实现较好地协调以及打通通信库等多种问题。」据了解,目前,英伟达加上国产卡 1+1 混训,无问芯穹共有六种芯片,任意两种都能组合训练,在百卡和千卡这个级别都已经完成混训,整体效率达到 97.6%。不过,GPU 异构真的是长久之计吗?长期来看这类解决方案究竟能走多远呢?业内多有观点认为,异构是芯片产能不足现状下的妥协。更甚者,有较为尖锐的声音直指,「在异构的或者在不同品牌的芯片上去做一个统一的训练平台是个伪命题,是不存在且没必要去做的方向。」在实际的训练场景里,如若采用不同的芯片架构去做异构训练,其中的性能损耗较大,整体上来说效率和性价比均无法匹敌单一型号 GPU 的同构集群,很难发挥硬件的底层算力性能。即便都是英伟达的芯片,将 A100、H100 混用也会带来每层之间的训练参数、能力之间的巨大差异,最后会导致这些 Bottleneck 影响到训练的效果。因为训练是一个集中式的过程,其实有点像一个超级计算机,每一层的中间过程都会影响到性能发挥,所以在单一集群里混用多种芯片做训练实际上必要性不大。从超算的更迭趋势上来看,也不存在同一超算中心放不同型号加速卡的情况。所以,随着国产芯片产能的提升,最终智算中心会回归到以往比较偏同构的基础架构里,因为单一方式是最高效的解决方案。此外,推理更没必要异构,因为推理基本上把模型部署在单台机器或者一个小集群上,即使是商业闭源模型也都部署在 16 卡、 32 卡的小集群上,因此,每个集群本身仅需保证集群内卡型一致。而如若能够兼容多种不同类型的芯片,不同集群使用不同芯片跑,就可以将推理变成一个分布式的任务,这也是 PPIO 派欧云看好分布式推理的原因之一。「在这个过程中更重要的事情就是调度,因为可能 A 集群性能最强,任务很快就处理完了,B 集群 Transformer 还在过程中,那下一个任务要优先调给 A 还是 B,其实是任务调度和资源池化管理任务分配的话题。」PPIO 派欧云联合创始人、CEO 姚欣曾向 AI 科技评论解释。3
超越云厂
过往,关于创业 AI Infra 到底会不会和云厂产生正面冲突,也是被提及最多的疑问之一。二者看似存在诸多相似之处,那大家为何不选择体系更为成熟的云厂呢?对此,也有许多业者向 AI 科技评论表达了自己的见解。从结论中综合看来,大部分观点其实都指向与云厂相比存在差异,这也是创企有着同云厂友好协作空间的原因所在:一是,云厂过去解决的问题跟现在要解决的问题并不完全相同,甚至是相对的两个方向,云厂基本从资源池化和共享的角度切入,而当前要解决的难题在于分布式的资源合并;二是,云厂商都是做后端、做前端、网络管理、调度的人才,AI 人才较为缺乏,事实上很难对国产芯片做适配。但也有不同的声音认为,「不管是美国的大模型公司,还是中国六小龙,其实都要建自己的基础设施,不然就是被云厂服务,创业公司很难切到这部分蛋糕。」总体上来看,如今,AI Infra 的重要性是不言而喻的。而在大模型的这一波浪潮中许多创企也正在摸索更合适的业务方向,正因为此,可以明显感知到业内的观点在不断碰撞摩擦。火星四溅之下,无论是会否和通用大模型公司抑或是其他云大厂竞争,还是说一体机和异构是否为长久之计,要解决的底层关键都是国产算力问题,而对于当前阶段而言,不管从哪个方向切入或许都会是调优路上的有益尝试。