让长序列 MoE RL 训练更好调:Megatron-Lite / bumblebee 的优化实践

长序列训练不只出现在 pretrain。进入 RL 阶段以后,prompt、rollout、reward、工具调用和多轮交互都会把上下文长度拉高。很多团队关心的问题也随之变化:他们需要用较少启动卡数,稳定跑通 128K、256K,甚至更长上下文的算法实验。 ...

2026年5月18日 · 18 分钟 · Yan Bai