2026 年 6 月 28 日,DeepSeek 在官方 DeepSpec 仓库中发布 DSpark 检查点,并完善训练与评估代码。DSpark 不是一款新的 DeepSeek V4 模型,而是附加在现有模型上的推测解码模块:先由轻量草稿模型并行提出候选 token,再交给主模型批量验证,以减少逐 token 生成造成的等待。
DeepSeek 公布的生产数据称,在相同吞吐条件下,DSpark 让 DeepSeek-V4-Flash 的单用户生成速度相较 MTP-1 提高约 60% 至 85%,V4-Pro 提高约 57% 至 78%。这类提升主要作用于输出阶段,用户最容易在长回答、代码生成和高并发服务中感受到;它不代表模型知识、推理准确率或上下文长度本身发生升级。
为什么推测解码会更快
传统大模型通常按顺序生成 token,每一步都要调用体量较大的主模型。推测解码增加一个更轻的“草稿员”,先提出一小段候选内容,再由主模型一次检查多项。候选被接受得越多,主模型完成同样输出所需的串行步骤就越少。
DSpark 的重点是半自回归草稿结构和按负载调整的调度方式。系统会根据服务压力平衡草稿与验证工作,目标是在不改变最终输出分布的前提下提高单用户速度。这里的“无损”指验证机制保持主模型输出规则,不等于所有硬件和流量形态都能复现同一提速比例。
开源内容对部署团队意味着什么
官方 DeepSpec 仓库采用 MIT 许可证,包含数据准备、草稿模型训练和评估流程,并同时支持 DSpark、DFlash 与 Eagle3。评估任务覆盖数学、代码和通用对话等场景,团队可以用统一流程比较不同草稿算法,而不必只看论文里的平均数字。
门槛也很现实。官方默认训练配置面向单机 8 GPU;以 Qwen3-4B 为例,准备目标缓存可能占用约 38TB。DeepSeek-V4-Pro-DSpark 本身仍是 1.6T 总参数、49B 激活参数的模型。小团队如果没有成熟的推理集群,直接下载检查点并不等于能低成本上线,优先等待云服务或推理框架完成集成通常更实际。
接下来应验证三件事
部署方应先在自己的回答长度、并发和硬件上测每秒 token、首 token 延迟与单位请求成本;随后检查 SGLang 等服务框架的兼容性;最后对关键任务做输出一致性回归。DSpark 的意义在于把竞争从“模型答得多强”推进到“同一模型能否更快、更省地服务”,但最终收益仍由真实负载决定。