你好,我是柏炎。

我目前在 NVIDIA 工作,关注大模型训练系统和 RL infra,尤其是 Megatron-Core、分布式并行训练、MoE、长序列训练和强化学习训练框架里的系统问题。

我为 veRL 贡献了全功能的 Megatron-Core 支持,使它成为首个公开支持 DeepSeek V3 的 RL 框架。围绕这部分工作,我也把 Megatron-Core 的使用经验总结成了 mbridge 项目,并开源在 GitHub 上。

我还做过一个 Megatron 显存估计器,用于快速估算不同并行配置下的训练显存;相关介绍可以参考 NVIDIA 技术博客:使用 Megatron-Core 训练框架提升大模型训练 GPU 显存效率

这个博客会记录分布式训练、RL infra、模型系统、实验复盘,以及在真实训练栈中开发和调试得到的经验。