AI导航

DeepSeek 发布 DSpark 检查点,V4 推理最高提速 85%

AI资讯
2 min read
0 次阅读

2026 年 6 月 28 日,DeepSeek 在官方 DeepSpec 仓库中发布 DSpark 检查点,并完善训练与评估代码。DSpark 不是一款新的 DeepSeek V4 模型,而是附加在现有模型上的推测解码模块:先由轻量草稿模型并行提出候选 token,再交给主模型批量验证,以减少逐 token 生成造成的等待。

DeepSeek 公布的生产数据称,在相同吞吐条件下,DSpark 让 DeepSeek-V4-Flash 的单用户生成速度相较 MTP-1 提高约 60% 至 85%,V4-Pro 提高约 57% 至 78%。这类提升主要作用于输出阶段,用户最容易在长回答、代码生成和高并发服务中感受到;它不代表模型知识、推理准确率或上下文长度本身发生升级。

为什么推测解码会更快

传统大模型通常按顺序生成 token,每一步都要调用体量较大的主模型。推测解码增加一个更轻的“草稿员”,先提出一小段候选内容,再由主模型一次检查多项。候选被接受得越多,主模型完成同样输出所需的串行步骤就越少。

DSpark 的重点是半自回归草稿结构和按负载调整的调度方式。系统会根据服务压力平衡草稿与验证工作,目标是在不改变最终输出分布的前提下提高单用户速度。这里的“无损”指验证机制保持主模型输出规则,不等于所有硬件和流量形态都能复现同一提速比例。

开源内容对部署团队意味着什么

官方 DeepSpec 仓库采用 MIT 许可证,包含数据准备、草稿模型训练和评估流程,并同时支持 DSpark、DFlash 与 Eagle3。评估任务覆盖数学、代码和通用对话等场景,团队可以用统一流程比较不同草稿算法,而不必只看论文里的平均数字。

门槛也很现实。官方默认训练配置面向单机 8 GPU;以 Qwen3-4B 为例,准备目标缓存可能占用约 38TB。DeepSeek-V4-Pro-DSpark 本身仍是 1.6T 总参数、49B 激活参数的模型。小团队如果没有成熟的推理集群,直接下载检查点并不等于能低成本上线,优先等待云服务或推理框架完成集成通常更实际。

接下来应验证三件事

部署方应先在自己的回答长度、并发和硬件上测每秒 token、首 token 延迟与单位请求成本;随后检查 SGLang 等服务框架的兼容性;最后对关键任务做输出一致性回归。DSpark 的意义在于把竞争从“模型答得多强”推进到“同一模型能否更快、更省地服务”,但最终收益仍由真实负载决定。

官方来源:DeepSeek DeepSpec 代码与论文DeepSeek-V4-Pro-DSpark 模型卡

推荐工具

NVIDIA Chat with RTX AI聊天 Chat with RTX 是 NVIDIA 面向 RTX 电脑的本地 AI 聊天工具,可围绕本地文档和视频资料做问答,适合重视隐私、离线检索并具备硬件条件的用户更适合资料不便上传云 文心一言 AI聊天 文心一言 是百度文心大模型 AI 助手,支持百度 AI 聊天、文案创作和图像理解,适合中文用户和内容创作者完成 AI 对话、资料问答和任务协作,适合上线前核对权限、成本和资料质量。 HuggingChat AI聊天 HuggingChat 是 Hugging Face 的开源模型聊天应用,支持 Omni 自动选模型,也可手动选社区开放模型对话。它适合体验开源模型、技术探索和问答,结果可能不稳定,重要内容需复核。 纳米AI搜索 AI搜索 纳米AI 是 360 旗下 AI 搜索和智能体入口,支持文字、语音、拍照提问、多模型协作与内容创作,适合中文用户做日常搜索、学习问答、移动查询、热点追踪、生活决策、知识整理和轻量创作。 Meta AI AI聊天 Meta AI 是 Meta 的个人 AI 助手,可在网页、应用、AI 眼镜及 WhatsApp、Instagram 中使用,支持问答、图像理解和语音交流,适合社交与生活场景,部分功能受地区限制。 Pi AI AI聊天 Pi AI 是 Inflection AI 推出的个人 AI 助手,强调情绪理解、陪伴式交流、生产力建议和安全对话,可在 pi.ai 与移动端使用。它适合日常思考、学习陪练和规划,不替代专业心理支持。