梳理下时间线,The Information周日文章说Pre-Train模型的预训练“撞墙”了,昨天ilya接受路透采访,说了同样的话,原文如下:
The Information口碑参差不齐,但ilya也这么说,一石激起千层浪。
实际上预训练边际效果递减这事儿已经传了很久。7月份第一次传GPT-5训练不顺利,8月份开始流传“LLM语言模型预训练放缓,RL强化学习Post train优先级提高”,但前半句被当成“华人圈小作文” ,觉得北美如火如荼,大家都在搞10万卡20万卡,预训练并没有停。这期间扎克伯格、Anthropic Dario、xAI都出来讲Scaling Law没有放缓。到9月o1出来,Sam Altman甚至提出预训练scaling+推理scaling,双发动机。
到今天有结论了吗?个人觉得80%的可能Pre-Train预训练已经撞墙了,但并不是原理上,毕竟scaling law是个经验性定律,和摩尔定律一样,没到做出来你也不知道证伪与否 ,但:
经济上,投入产出比的问题。 假如你拿到10万卡,即20-30亿美金的预算,每个月的沉没成本是1亿美金,你会用在哪里?Pre-train、RL post train、inference,还是探索出其他新的scaling方法? 假如你在有限资源情况下, research上有新的发现,同样1亿美金/月的成本,能获得模型能力上更大边际提升,自然而然会降低pre-train的投入权重。 就比如目前OpenAI在post-train上的算力分配已经超过了一半,这是个重要信号。
工程实践上,难度太大。 10万卡的互联就很难,何况20万卡、100万卡,crush多到爆炸…以及的确数据如果搞到几十T,多模态数据边际效用降低等等
但这只是ilya说的前半句,后半句是: 现在的关键,是找到在什么地方去scaling。 什么意思?预训练显然是在scale参数+数据。而RL post train是在参数不显著增加的情况下,scale了更多高质量的reasoning数据。test-time compute是scale推理的次数。这可能就是ilya的“灵魂发问”,未来到底去scale什么因子? (显然不止是上面所说的这些)
我个人甚至怀疑现在还在鼓吹猛搞预训练的“领军人物”们,是在误导对手,往沟里带。但另一些人,已经透露出了些端倪,比如 微软CEO Satya说的——预训练模型LLM已经“商品化/同质化”。也就是目前基于自回归训练出的LLM语言模型,依然只是个“原材料”、“基座”,基于此再去实现更好的智能和应用,还有很多后续配方…
scale,本质上还是扩大算力。 “大力出奇迹”依然是那根魔法棒,只是去“点”哪里的问题。 因此算力还是离不开,只是把算力以什么方式、用在什么地方
超大集群真不一定需要 ,分布式集群也可以(老黄BG2亲口盖章)。 但总量会越来越大
训练上,GPU依然是最优选择。 经过这件事,更加说明目前处于early stage早期阶段,算法本身远没有定型 。auto-regressive 机制下的transformer效率还有极大优化空间。CUDA的壁垒只会越来越高
推理上,GPU的壁垒,说实话我现在看不清,已经来回摇摆过多次。包括端侧,因为搞不清楚未来端侧推理多少比例也会上云(所谓隐私那部分其实很小很小)
我倾向于乐观。Ilya既然这么说,说明他的新公司ISI已经找到了方法、方向。不然创什么业啊…而让我乐观的另一个原因,是我认识一位华人AI创业的朋友,之前一直水下非常低调。但他们很早就All in RL (不是传统RL,也不是post train RL),大概1年前就告诉我“自回归这条路已经走到头了” ,当时觉得也太激进了…到今天大家才回过神。但从这位朋友公司的进展来说,AI的发展尤其是research根本没有放缓,而是看到了更多可能性。
因此总结来说,乐观一点。自回归不代表AI的全部,OpenAI也不代表AI的全部,老黄都说过LLM是英伟达多年押注涌现出的一个“application”罢了 。为台积电节省了10亿美金的“计算光刻” 、Palantir的AI产品AIP 、Applovin的AXON, 哪个是现在大火的LLM?都不是,但他们都是AI,且都在买GPU,都在scaling。因此pre train放缓不代表AI停滞了,已经停不下来了…
星球推出新专栏——《AI应用日报 》,跟踪扫描AI应用会是以后非常重要且日常的工作。从现在开始慢慢积累。
文章内容来自于网络,由百合树AI 整理,如有侵权,联系删除 。如需开始AI写作 请返回主页。