AI 公司 PrimeIntellect 最近开始训练一个拥有 100 亿参数的新模型,该公司希望通过全球用户的帮助来完成这一任务。
在其博客上,PrimeIntellect 表示,其新模型 INTELLECT-1 将成为首个通过去中心化训练完成的大规模模型。然而,这个模型的参数数量仍远低于四年前的模型,例如 OpenAI 的 GPT-3,其拥有超过 1750 亿参数。
这个项目最初是基于对开源实现和全球分布式 AI 模型训练的研究。这个方法已经成功应用于一个拥有 10 亿参数的模型,现在的目标是将规模扩大十倍。
规模并非一切
微软的 Phi 模型和 Meta 的 Llama 模型等较新的 AI 模型已经证明,通过提高效率,可以用远少于 GPT-3 或 GPT-4 的参数实现相似的性能。
PrimeIntellect 公司的目标是实现去中心化训练,以确保下一代人工智能,特别是人工通用智能(AGI),能够是开源的、透明的,并且可以让所有人都能使用。这将减少只有少数大型公司能够访问这一先进技术的风险。
目前,用户只能通过该公司的平台参与项目。你可以通过租用 PrimeIntellect 选择的 GPU 来参与训练,特别是 NVIDIA 的 H100 Tensor Core GPU,其运行成本约为每小时 20 美元。但未来,用户应该可以使用自己的硬件为模型训练贡献算力。
训练是通过多个独立的设备集群来完成的,这些集群处理数据以训练 AI 模型。然而,新的功能允许这些集群之间减少通信频率以同步进度,从而减少了带宽的要求。训练框架还可以处理节点的加入或离开,而不会导致系统崩溃。
加入已经开始训练的新节点需要先了解模型的最新状态,才能参与训练。通过让新节点从其同伴请求检查点,延迟问题已经得到解决。
INTELLECT-1 接下来的发展
INTELLECT-1 基于 Llama-3 架构,正在使用四个不同的数据集进行训练,主要训练数据集是 Hugging Face 的 FineWeb-Edu,包含来自教育类网页的内容。
未来,PrimeIntellect 希望训练更大规模的模型,并开发方法让任何人都能创建自己的 AI 模型训练项目,并让其他用户也能贡献他们的处理能力。