柏炎的技术笔记
|
English
文章
关于我
归档
搜索
标签
归档
2026
2
五月
2
让长序列 MoE RL 训练更好调:Megatron-Lite / bumblebee 的优化实践
2026年5月18日
·
18 分钟
·
Yan Bai
FSDP、PP、CP、EP:大模型训练中的四种并行维度
2026年5月17日
·
1 分钟
·
Yan Bai