让长序列 MoE RL 训练更好调：Megatron-Lite / bumblebee 的优化实践

Mon, 18 May 2026 21:50:00 +0800

长序列训练不只出现在 pretrain。进入 RL 阶段以后，prompt、rollout、reward、工具调用和多轮交互都会把上下文长度拉高。很多团队关心的问题也随之变化：他们需要用较少启动卡数，稳定跑通 128K、256K，甚至更长上下文的算法实验。

FSDP、PP、CP、EP：大模型训练中的四种并行维度

Sun, 17 May 2026 01:10:00 +0800

这是一篇示例中文文章，用来验证博客的双语切换和评论区配置。

大模型训练通常不是靠单一并行策略解决问题，而是把不同维度的并行组合起来：

后续可以把这篇替换成正式文章。