让长序列 MoE RL 训练更好调:Megatron-Lite / bumblebee 的优化实践

长序列训练不只出现在 pretrain。进入 RL 阶段以后,prompt、rollout、reward、工具调用和多轮交互都会把上下文长度拉高。很多团队关心的问题也随之变化:他们需要用较少启动卡数,稳定跑通 128K、256K,甚至更长上下文的算法实验。 ...

2026年5月18日 · 18 分钟 · Yan Bai

FSDP、PP、CP、EP:大模型训练中的四种并行维度

这是一篇示例中文文章,用来验证博客的双语切换和评论区配置。 大模型训练通常不是靠单一并行策略解决问题,而是把不同维度的并行组合起来: FSDP 切分参数、梯度和优化器状态,主要缓解模型状态显存。 Pipeline Parallelism 按层切分模型深度,让更大的模型跨设备训练。 Context Parallelism 按序列维度切分长上下文,主要缓解 attention 激活显存。 Expert Parallelism 按 expert 切分 MoE 模块,适合 Qwen、DeepSeek、Mixtral 这类 MoE 模型。 后续可以把这篇替换成正式文章。 ...

2026年5月17日 · 1 分钟 · Yan Bai