LLaMA版o1：支持蒙特卡洛树、自博弈RL、AlphaGo Zero-百合树AI写作-专业学术论文写作助手

收录于话题

LLaMA-O1项目：使用 PyTorch 和 HuggingFace 进行训练、推理和评估的开放大型推理模型（LRM）框架。由蒙特卡洛树搜索 (MCTS)、自我对弈强化学习（Self-Play Reinforcement Learning,）、PPO、AlphaGo Zero的双层策略范式和大型语言模型提供支持的大型推理模型！

LLaMA版o1：支持蒙特卡洛树、自博弈RL、AlphaGo Zero

此次开源的还包括长思维链CoT预训练数据OpenLongCot-Pretrain（103K），每条数据包括问题描述、多步推理，最终答案

上述样本中文翻译：

LLaMA版o1：支持蒙特卡洛树、自博弈RL、AlphaGo Zero

https://huggingface.co/datasets/qq8933/OpenLongCoT-Pretrainhttps://github.com/SimpleBerry/LLaMA-O1

LLaMA版o1：支持蒙特卡洛树、自博弈RL、AlphaGo Zero

相关推荐

发表回复 取消回复

发表回复取消回复