早在超算时代,清华大学高性能计算研究中心便一直是解决算力需求相关软件问题的行家。“目前 AI Infra 赛道几家国内厂商中,只有我们有过十万台服务器的超大规模国产算力集群的使用和调优经验。”汤雄超向 AI 科技评论介绍道。而“大规模”会是算力发展最难解的“题”——从汤雄超观察来看,当前业内多有提及的不同品牌 GPU 异构混训,是芯片产能不足现状下的一种妥协,未来智算中心可能会回归同一型号 GPU 的架构以获得更高的效率,AI 大模型训练核心归根到底还是落点在大规模算力系统本身。基于前述思考,去年年底,这支来自清华大学计算机系的团队创办了清程极智,汤雄超博士担任公司 CEO,翟季冬教授为公司首席科学家。除了 AI 训练面临的挑战,成立之初,清程极智也看到了推理侧的机会。在一段时期内,训推一体机是业内较为流行的产品形态。但在汤雄超的观点中,训推一体机是很难满足未来的 AI 业务全部需求的。论及其中原因,他认为,“训练和推理两种业务对算力系统的需求区别较大,很难想象出有一个比较小的一体机能够承载训练的业务,现在大模型的预训练可能都是万卡以上的规模。”所以,清程极智选择为推理业务量身定制相应的软硬一体化算力系统。同时,通过云端算力提供 MaaS 大模型推理服务也是清程极智选择的路径之一。至于这条路会否和通用大模型公司产生竞争,汤雄超认为,大模型应用一定会起量,一个足够大的市场可以容下好几家同一细分领域里的厂商。他还告诉 AI 科技评论,公司成立这半年多来,在商业化方面,清程极智已经陆续和多家芯片厂商、算力中心、AI 应用开发商以及基础模型预训练厂商达成了商业合作。值得一提的是,云厂商也是清程极智的合作对象之一。在汤雄超看来,云厂商过去解决的问题跟现在要解决的问题并不完全相同,甚至是相对的两个方向——云厂商过往聚焦于资源池化和共享,而现阶段要解决的问题主要是分布式的资源合并,这方面的经验市场上还较为稀缺,而这恰好是清程极智团队的强项所在。这段时日,汤雄超对国内芯片厂商的差异化也深有体会,他认为,从过往智能手机和新能源汽车两个行业的发展规律来看,之后国产芯片市场会有一定程度的收敛,但不会完全集中到一家,并且国产芯片的性价比超越海外产品也只是时间问题。以下是 AI 科技评论与汤雄超的访谈实录,作者进行了不改原意的编辑整理:
1壁垒在超大规模集群调优AI 科技评论:你们为什么会想要在去年年底瞄准 AI Infra 这个赛道去创业呢?有什么契机吗?汤雄超:去年底出来做 AI Infra 创业是因为我们认为这个领域和时机比较好。主要契机要从我们团队背景说起,目前我们团队 40 多人中 80% 都是研发,核心的技术负责人几乎都来自清华计算机系。清华大学高性能计算研究中心一直以来是做超算的,主要解决算力需求大的问题,之前主要服务于天气预报、气候模拟、石油勘探等。随着人工智能的发展,我们发现 AI 相关问题也逐渐需要超大计算量解决,刚好我们做超算的经验都可以用来解决 AI 算力系统的问题,再加上我们非常看好 AI,长期来看,我们相信 AI 会给社会带来较大影响。所以从商业的角度上来说,我们做的事情还算比较有想象空间,这也很契合我们的技术背景。另外,也刚好赶上美国对中国的芯片制裁,从社会价值的角度上来讲,我们作为清华人去做面向国产算力系统的事情也非常有意义。总得来说,我们当时选择这个赛道创业,是非常坚定看好市场机会的,并非拿着锤子找钉子。基本逻辑在于,AI 对算力的需求越来越大是共识,国内的智能算力从英伟达转向国产基本上也是确定的,而在这样一个一边增长一边转换的过程中,显然我们需要在国产算力生态上做很多事情,这也会带来许多商业上的机会。
汤雄超在清程极智办公室 受访者供图
AI 科技评论:国内目前有好几家厂商在布局 AI Infra 这条赛道,你们的壁垒体现在哪方面?汤雄超:这个赛道上有很多友商,对我们而言并非负面因素。首先,市场大到足够容下很多家厂商,其次,既然有这么多人入局,也说明大家对这个领域的认可。我们其中一个显著的技术壁垒在于超大规模集群的调优能力,现实中,这可能直接意味着算力中心是否用得起来,本身我们团队在大规模集群上面做过很多事情,所以我们和其他家的差异性优势,最核心的还是在于这一点,这件事是非常难做的。据我所知,目前国内 AI Infra 赛道的厂商中,除了我们,没有团队有过十万台服务器的超大规模国产算力集群的使用和调优经验,哪怕是万卡、十万卡这样的超大规模训练,现在能做的团队都不多,所以这是我们非常重要的技术优势。实际上,除了各家都在做的推理优化之外,我们是可以做训练的,而且是超大规模的训练。AI 科技评论:清程目前主要和哪些厂商有合作呢?汤雄超:我们公司聚焦在 AI Infra,就是算力的基础软件系统,大家一般会把 Infra 比喻成一座桥梁,一端是硬件,另外一端是上层应用,我们做的就是把这两端连接起来,让大模型更好地运行在芯片上。我们的客户也就主要来自于这两端,一方面是算力侧,包括芯片厂商以及算力中心的建设方和运营方。整体上来说,国产算力系统的软件生态和国外成熟的系统相比,还是有一定的差距的,我们做的就是帮芯片厂商补齐短板,真正发挥硬件的性能。算力中心也是类似的情况,现在大模型所需要的算力规模很大,真正地把万卡甚至十万卡规模的集群用起来并不简单,我们帮算力中心把超大规模的集群给利用起来,从商业角度上来说,能够提升算力中心的市场竞争力,从社会角度来讲,相当于提升算力资产的整体利用率,减少资产闲置现象。对于 AI 应用侧,我们提供的价值整体上来说就是大家比较熟悉的提速降本。目前我们用大模型回答问题或者画图,耗时还比较长,这给 AI 应用落地带来较大障碍。我们通过高性能的大模型推理引擎,在同样的硬件平台上把模型运行得更快,在一些情况下响应速度可能会有近百倍的提升。这样可以把模型运行时间缩短,一方面,用户体验可以改善,另外一方面,时间缩短了,AI 应用消耗的算力也会变少,算力成本随之降低。另外,我们也有做基座大模型预训练的客户群体,模型预训练本身算力消耗大、周期长,通常训练一个大模型需要几个月时间和几千万的预算。我们能把训练的性能提升百分之几十,从而降低百万或千万的算力开销。一方面,大模型训练周期缩短后,模型迭代速度会变得更快。另一方面,按一般原本算力费用千万级来说,节省 50% 的算力成本会是非常大的一个数字。整体来看,现在我们的客户主要是芯片厂商、算力中心、上层做 AI 应用的公司以及做模型预训练的厂商。AI 科技评论:和云厂会有合作或者竞争吗?汤雄超:我们跟云厂相比是有自身优势的。在一些比较传统的文本类的大模型的预训练上,我们也和国内的云厂商有合作。他们也有自己的团队,找我们合作本质上还是因为云厂过去要解决的问题跟现在要解决问题并不相同。之前他们也维护大规模的集群,但更多的是从资源池化和共享的角度去做的,就相当于把一块 GPU 卡切成很多份,同时服务很多请求和用户。现在反过来我们要做的是合并的事情,就是让 1 万块或者 10 万块 GPU 共同为一个用户服务,去解决同一个问题。这部分经验即使在大厂内也是相当稀缺的,因为国内本来做大集群并行计算的人一直都比较少,再叠加上国产芯片问题,相关的储备就更稀缺了。AI 科技评论:你们目前的融资情况如何了?汤雄超:今年初我们完成了第一轮融资,预计年内会再完成新一轮。