<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Posts on 柏炎的技术笔记</title><link>https://iseekyan.github.io/zh/posts/</link><description>Recent content in Posts on 柏炎的技术笔记</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 18 May 2026 21:50:00 +0800</lastBuildDate><atom:link href="https://iseekyan.github.io/zh/posts/index.xml" rel="self" type="application/rss+xml"/><item><title>让长序列 MoE RL 训练更好调：Megatron-Lite / bumblebee 的优化实践</title><link>https://iseekyan.github.io/zh/posts/qwen35-long-sequence-moe-rl/</link><pubDate>Mon, 18 May 2026 21:50:00 +0800</pubDate><guid>https://iseekyan.github.io/zh/posts/qwen35-long-sequence-moe-rl/</guid><description>&lt;p>长序列训练不只出现在 pretrain。进入 RL 阶段以后，prompt、rollout、reward、工具调用和多轮交互都会把上下文长度拉高。很多团队关心的问题也随之变化：他们需要用较少启动卡数，稳定跑通 128K、256K，甚至更长上下文的算法实验。&lt;/p></description></item><item><title>FSDP、PP、CP、EP：大模型训练中的四种并行维度</title><link>https://iseekyan.github.io/zh/posts/fsdp-pp-cp-ep/</link><pubDate>Sun, 17 May 2026 01:10:00 +0800</pubDate><guid>https://iseekyan.github.io/zh/posts/fsdp-pp-cp-ep/</guid><description>&lt;p>这是一篇示例中文文章，用来验证博客的双语切换和评论区配置。&lt;/p>
&lt;p>大模型训练通常不是靠单一并行策略解决问题，而是把不同维度的并行组合起来：&lt;/p>
&lt;ul>
&lt;li>FSDP 切分参数、梯度和优化器状态，主要缓解模型状态显存。&lt;/li>
&lt;li>Pipeline Parallelism 按层切分模型深度，让更大的模型跨设备训练。&lt;/li>
&lt;li>Context Parallelism 按序列维度切分长上下文，主要缓解 attention 激活显存。&lt;/li>
&lt;li>Expert Parallelism 按 expert 切分 MoE 模块，适合 Qwen、DeepSeek、Mixtral 这类 MoE 模型。&lt;/li>
&lt;/ul>
&lt;p>后续可以把这篇替换成正式文章。&lt;/p></description></item></channel></rss>