DeepSeek-V3.2 的核心升级可以概括为“三件套”:用 DSA 把 128K 长上下文推理/Agent 的注意力成本打下来把 GRPO 的 RL 后训练算力规模化并稳定住、再用大规模 Agent 任务合成 + 冷启动把“思考”融进工具调用,从而在 reasoning 与 agent 基准上把开源模型与闭源前沿差距显著缩小。

贡献点

  1. DSA(DeepSeek Sparse Attention):在长上下文下显著降计算复杂度,同时尽量保持性能
  • 摘要明确列为关键突破(1)
  • 结构上:由 lightning indexer + fine-grained token selection(Top-k) 组成,并给出公式(1)(2)
  • 推理成本:将主注意力从 O(L^2) 降到 O(Lk),并在 H800 集群服务成本曲线(Figure 3)展示长序列成本差异
  1. 可扩展且稳定的 RL(基于 GRPO):把“后训练算力占比”拉高到 > 预训练 10%,并提出一套稳定训练的工程策略
  • 论文明确指出:后训练算力预算 exceeding 10% of the pre-training cost
  • 在 3.1 节给出 GRPO 目标公式(5)(6)并提出四个稳定策略:Unbiased KL Estimate / Off-Policy Sequence Masking / Keep Routing / Keep Sampling Mask
  1. “思考融入工具调用”的机制(Thinking in Tool-Use):用“思考上下文管理 + 冷启动 + 大规模 Agent 任务”把 reasoning 能力迁移到 tool-use 场景
  • 3.2.1 给出思考保留规则(只在新 user message 到来才丢历史 reasoning;tool output 追加则保留 reasoning;保留 tool call 历史)
  • 3.2.3 给出 Agent 任务构造与规模:search/code/general/code interpreter,任务数量表(Table 1)
  1. 大规模 Agent 任务合成流水线:合成 1,827 环境 + 4,417 任务,并给出生成与验证流程(可自动验证)
  • 环境合成与验证的 3 步工作流 + 最终保留 1,827 环境、4,417 任务
  1. Speciale 变体用于“更长思考”上限探索:通过“减少 length penalty、只训 reasoning 数据、引入 DeepSeekMath-V2 的数据/奖励”来推上限
  • Speciale 训练方式描述
  • 4.2 明确:Speciale 通过更多 reasoning tokens 提升表现,但 token efficiency 明显更差

问题定义与假设

总体目标问题:在不牺牲太多质量的前提下,提升开源 LLM 在 长上下文推理 + agent/tool-use 的能力与性价比,缩小与闭源前沿模型差距。

  • 输入
    • 长上下文 token 序列(最高 128K)
    • RL 阶段的任务 prompt(reasoning / agent / alignment 混合)
    • agent 环境的 tool 输出与多轮交互消息
  • 输出
    • 直接回答(non-thinking)或带 reasoning 的回答(thinking)
    • 工具调用序列 + 最终答案(agent/tool-use)
  • 关键约束/假设
    1. 长上下文效率瓶颈主要在注意力,需在结构上解决(论文点名“vanilla attention 限制效率”)
    2. 后训练算力不足是开源差距的重要原因,因此要敢于扩到 >10% 预训练成本
    3. tool-use 的 “thinking” 需要专门的上下文管理,否则会出现 token 低效与反复推理

方法细读

模块 → 目的 → 关键公式/实现 → 复杂度/细节 + 逐段证据

DSA:lightning indexer + Top-k token selection

目的:在 128K 长序列中,只让每个 query 关注少量关键 KV,降低主注意力开销。

  • Indexer 打分(公式 1):对 query token h_t 与历史 token h_s 计算索引分数 I_{t, s} ,多 indexer head 汇聚,并用 ReLU(吞吐考虑)
  • Top-k 选择 + 稀疏注意力(公式 2):取 Top-k 的 token 集合,只对这些 KV 做 Attention 得到输出 u_t
  • 与 MLA 的关系:为从 V3.1-Terminus 继续训练,DSA 基于 MLA 实例化;出于 kernel 效率,采用 MLA 的 MQA 模式(共享 KV latent 给所有 query heads)

复杂度:主注意力从 O(L^2)O(Lk),其中 k << L;indexer 仍是 O(L^2) 但计算量远小于 MLA。

Continued Pre-Training:两阶段把模型“迁移到稀疏模式”

目的:让 indexer 学会拟合原本 dense attention 的分布,并让主模型适配稀疏注意力模式。

  1. Dense Warm-up(只训 indexer)
  • 冻结除 indexer 外所有参数,dense attention 保持不变
  • 目标:indexer 输出拟合主注意力分布(KL loss,公式 3)
  • 训练规模:1000 steps;每步 16×128K tokens;总 2.1B tokens
  1. Sparse Training(训全模型 + Top-k)
  • 引入 Top-k selector,并继续用 KL 对齐,但只在选中集合 S_t 上对齐(公式 4)
  • 关键实现:detach indexer input,indexer 只由 L_I 训练信号更新;主模型只按 LM loss 优化
  • 超参:每个 query 选 2048 KV tokens;训练 15000 steps;每步 480×128K;总 943.7B tokens

推理成本与工程实现

  • 成本估计来自 H800 集群服务实测,并假设租赁 2 USD/GPU hour;Figure 3 展示 prefill/decoding 的每百万 token 成本随位置变化
  • 短序列 prefill:实现 masked MHA mode 来模拟 DSA 以提高短上下文效率

Post-Training:specialist distillation + mixed GRPO

  • Specialist Distillation:先训各领域 specialist(数学、编程、逻辑推理、general agent、agentic coding、agentic search 等),再蒸馏到最终模型,并用后续 RL 消除差距
  • Mixed RL Training(GRPO):把 reasoning/agent/human alignment 合并到同一 RL 阶段,避免多阶段训练的灾忘问题;奖励包括 rule-based outcome reward、length penalty、language consistency reward;general tasks 用带 rubric 的生成式 RM

Scaling GRPO:四个“把 RL 扩大还能稳住”的关键补丁

GRPO 目标(公式 5/6):importance sampling ratio r_{i,t} + clip + KL penalty

  • Unbiased KL Estimate(公式 7):修正 K3 estimator 得到无偏 KL 梯度,减少系统性误差,避免某些低概率 token 导致梯度爆炸与训练不稳
  • Off-Policy Sequence Masking(公式 8/9):对“负优势且 KL 偏离过大”的序列打 mask,提升 off-policy 容忍度
  • Keep Routing:MoE 下保存采样时的 expert routing,并在训练时强制一致,避免参数子空间突变;并说明从 DeepSeek-V3-0324 起纳入 pipeline
  • Keep Sampling Mask:保留 top-p/top-k 的 truncation mask,使 \pi_{old}\pi_\theta 共享 action 子空间,稳定重要性采样

Thinking in Tool-Use:让“思考”不浪费 token、能跨工具轮次持续

  • Thinking Context Management:只在“新 user message”出现时丢历史 reasoning;tool output 追加则保留 reasoning;同时保留 tool calls & results 历史
  • Cold-Start:用 system prompt 设计把 reasoning data 与 toolcall data 拼起来,让模型偶尔生成正确轨迹作为后续 RL 起点

术语表

术语 说明
DSA DeepSeek Sparse Attention, DeepSeek 提出的稀疏注意力机制,通过 lightning indexer + fine-grained token selection 将注意力复杂度从 O(L²) 降至 O(Lk),显著降低长上下文推理成本
Lightning Indexer 闪电索引器,DSA 的核心组件之一,用于快速索引和定位关键 token,配合 Top-k 细粒度选择实现高效稀疏注意力
GRPO (Group Relative Policy Optimization) **分组相对策略优化,**DeepSeek 使用的强化学习后训练算法,通过分组相对策略优化实现可扩展且稳定的 RL 训练,后训练算力预算超过预训练成本的 10%
Unbiased KL Estimate **无偏 KL 散度估计,**GRPO 稳定训练策略之一,通过无偏 KL 散度估计避免策略更新时的偏差累积,提高 RL 训练稳定性
Off-Policy Sequence Masking **离策略序列掩码,**GRPO 稳定训练策略之一,对离策略(off-policy)序列进行掩码处理,减少过时样本对训练的干扰
Keep Routing **保持路由,**GRPO 稳定训练策略之一,在 MoE 架构中保持专家路由的一致性,避免 RL 训练过程中路由分布剧烈波动
Keep Sampling Mask **保持采样掩码,**GRPO 稳定训练策略之一,保持采样掩码的一致性,确保训练过程中样本生成与梯度计算的匹配
Speciale DeepSeek-V3.2 的特殊变体版本,用于探索“更长思考”的性能上限。通过减少 length penalty、只训练 reasoning 数据、引入 DeepSeekMath-V2 的数据/奖励来提升推理能力,但 token efficiency 较差
MLA (Multi-head Latent Attention) 多头潜在注意力,DeepSeek 提出的高效注意力机制,通过将 KV 压缩到低维潜在空间来减少 KV cache 的显存占用。DSA 基于 MLA 实例化,并采用 MQA 模式(所有 query heads 共享 KV latent)以提升 kernel 效率