DeepSeek 发布 DSpark 检查点，V4 推理最高提速 85%

2026 年 6 月 28 日，DeepSeek 在官方 DeepSpec 仓库中发布 DSpark 检查点，并完善训练与评估代码。DSpark 不是一款新的 DeepSeek V4 模型，而是附加在现有模型上的推测解码模块：先由轻量草稿模型并行提出候选 token，再交给主模型批量验证，以减少逐 token 生成造成的等待。

DeepSeek 公布的生产数据称，在相同吞吐条件下，DSpark 让 DeepSeek-V4-Flash 的单用户生成速度相较 MTP-1 提高约 60% 至 85%，V4-Pro 提高约 57% 至 78%。这类提升主要作用于输出阶段，用户最容易在长回答、代码生成和高并发服务中感受到；它不代表模型知识、推理准确率或上下文长度本身发生升级。

为什么推测解码会更快

传统大模型通常按顺序生成 token，每一步都要调用体量较大的主模型。推测解码增加一个更轻的“草稿员”，先提出一小段候选内容，再由主模型一次检查多项。候选被接受得越多，主模型完成同样输出所需的串行步骤就越少。

DSpark 的重点是半自回归草稿结构和按负载调整的调度方式。系统会根据服务压力平衡草稿与验证工作，目标是在不改变最终输出分布的前提下提高单用户速度。这里的“无损”指验证机制保持主模型输出规则，不等于所有硬件和流量形态都能复现同一提速比例。

开源内容对部署团队意味着什么

官方 DeepSpec 仓库采用 MIT 许可证，包含数据准备、草稿模型训练和评估流程，并同时支持 DSpark、DFlash 与 Eagle3。评估任务覆盖数学、代码和通用对话等场景，团队可以用统一流程比较不同草稿算法，而不必只看论文里的平均数字。

门槛也很现实。官方默认训练配置面向单机 8 GPU；以 Qwen3-4B 为例，准备目标缓存可能占用约 38TB。DeepSeek-V4-Pro-DSpark 本身仍是 1.6T 总参数、49B 激活参数的模型。小团队如果没有成熟的推理集群，直接下载检查点并不等于能低成本上线，优先等待云服务或推理框架完成集成通常更实际。

接下来应验证三件事

部署方应先在自己的回答长度、并发和硬件上测每秒 token、首 token 延迟与单位请求成本；随后检查 SGLang 等服务框架的兼容性；最后对关键任务做输出一致性回归。DSpark 的意义在于把竞争从“模型答得多强”推进到“同一模型能否更快、更省地服务”，但最终收益仍由真实负载决定。

官方来源：DeepSeek DeepSpec 代码与论文、DeepSeek-V4-Pro-DSpark 模型卡。

DeepSeek 发布 DSpark 检查点，V4 推理最高提速 85%

为什么推测解码会更快

开源内容对部署团队意味着什么

接下来应验证三件事

相关文章

推荐工具