2026  2

五月  2

让长序列 MoE RL 训练更好调:Megatron-Lite / bumblebee 的优化实践

2026年5月18日 · 18 分钟 · Yan Bai

FSDP、PP、CP、EP:大模型训练中的四种并行维度

2026年5月17日 · 1 分钟 · Yan Bai