AI 每日资讯归档

00:00

AI旗页热点日报 AI 动态

Prime Intellect 发布 prime-rl 0.6.0：开源框架支持万亿参数 MoE 模型的异步强化学习训练

一句话结论：prime-rl 0.6.0 是一个开源框架，专为万亿参数 MoE 模型设计，支持异步强化学习训练，并在 28 个 H200 节点上实现了高效训练。原始信息明确：Prime Intellect 发布了该框架，成功训练 GLM-5 在 SWE 任务上达到 131k 序列长度，步时间低于 5 分钟，包含 256 个 rollout，并采用了 FP8 推理、宽专家并行等优化。为什么值得关注：它展示了在超大规模模型上应用强化学习的可行性，为训练更智能的代理模型提供了基础设施。影响谁：主要影响从事大模型训练、强化学习研究的 AI 研究员、工程师以及需要训练超大规模 MoE 模型的组织。下一步验证或使用：研究者可从 GitHub 获取源码，按照文档配置硬件环境，尝试复现 GLM-5 的训练实验，或基于框架自定义训练任务。

AI热点日报论文模型强化学习

详情工具

AI 每日快讯

Prime Intellect 发布 prime-rl 0.6.0：开源框架支持万亿参数 MoE 模型的异步强化学习训练