LLaMA版o1:支持蒙特卡洛树、自博弈RL、AlphaGo Zero

LLaMA-O1项目:使用 PyTorch 和 HuggingFace 进行训练、推理和评估的开放大型推理模型(LRM)框架蒙特卡洛树搜索 (MCTS)自我对弈强化学习(Self-Play Reinforcement Learning,PPOAlphaGo Zero的双层策略范式和大型语言模型提供支持的大型推理模型!

LLaMA版o1:支持蒙特卡洛树、自博弈RL、AlphaGo Zero

此次开源的还包括长思维链CoT预训练数据OpenLongCot-Pretrain(103K),每条数据包括问题描述、多步推理,最终答案

LLaMA版o1:支持蒙特卡洛树、自博弈RL、AlphaGo Zero
上述样本中文翻译:

LLaMA版o1:支持蒙特卡洛树、自博弈RL、AlphaGo Zero

https://huggingface.co/datasets/qq8933/OpenLongCoT-Pretrainhttps://github.com/SimpleBerry/LLaMA-O1

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注