AI 每日快讯

AI 每日快讯

AI 产品、模型、开源工具和官方动态的时间流。保留历史记录,按分类、日期和标签继续筛选。

1299历史快讯
79开源工具
1当前结果
06 月 23 日 昨日快讯

Prime Intellect 发布 prime-rl 0.6.0:开源框架支持万亿参数 MoE 模型的异步强化学习训练

一句话结论:prime-rl 0.6.0 是一个开源框架,专为万亿参数 MoE 模型设计,支持异步强化学习训练,并在 28 个 H200 节点上实现了高效训练。原始信息明确:Prime Intellect 发布了该框架,成功训练 GLM-5 在 SWE 任务上达到 131k 序列长度,步时间低于 5 分钟,包含 256 个 rollout,并采用了 FP8 推理、宽专家并行等优化。为什么值得关注:它展示了在超大规模模型上应用强化学习的可行性,为训练更智能的代理模型提供了基础设施。影响谁:主要影响从事大模型训练、强化学习研究的 AI 研究员、工程师以及需要训练超大规模 MoE 模型的组织。下一步验证或使用:研究者可从 GitHub 获取源码,按照文档配置硬件环境,尝试复现 GLM-5 的训练实验,或基于框架自定义训练任务。