DeepSeek V4：千呼万唤始出来

全球视野, 下注中国

打开APP

DeepSeek V4：千呼万唤始出来

6 天前45.5k

+关注

DeepSeek V4或将带来万亿参数规模和百万级上下文窗口

本文来自：深网腾讯新闻，作者：雅萱

开年以来，关于DeepSeek V4的传闻已持续数月。从3月29日长达13小时的服务中断引发“灰度测试”猜想，到前两天DeepSeek网页端迎来大更新，DeepSeek V4推出的时间表渐渐明晰。

据《创智记》报道称，DeepSeek创始人梁文锋近日在内部沟通中透露，DeepSeek新一代旗舰大模型DeepSeek V4将于4月下旬正式发布。

两天前，在没发一条官方推文的情况下，DeepSeek网页端迎来大更新：其网页端上方的输入框上方多了“快速模式”和“专家模式”。其中，“快速模式”下，上传附件能识别图片与文件中的文字；而“专家模式”下，上传附件提示仅识别文字。

据现有信息显示，DeepSeek V4或将带来万亿参数规模和百万级上下文窗口。

DeepSeek曾在《DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理》中明确表示V3.2 采用了 DSA 稀疏注意力机制，最大输出长度默认为 128K。

不过DeepSeek团队于2025年12月底至2026年1月发表的多篇论文提出的mHC（保障训练稳定性）与Engram（优化长程记忆），结合已在V3.2中验证的DSA稀疏注意力机制，或构成V4实现百万上下文的理论基础。

有消息称，DeepSeek V4姗姗来迟的另一个关键原因，是与国产芯片的深度适配。

据公开报道，DeepSeek在发布V4之前，未向英伟达、AMD等美系芯片商提供预览，而是选择提前数周向包括华为在内的中国芯片供应商开放访问权限，以确保模型在国产算力平台上完成深度适配与优化。

这条路，对任何一家国产模型厂商来说都极为艰难，但从更长远的视角看，这又是一条不得不走的路。

从技术层面看，CUDA生态经过十多年积累，形成了从底层指令集到上层框架的完整闭环。切换到国产芯片，意味着算子库重构、并行策略重设计、通信开销重优化，每一个环节都可能踩坑。从时间窗口看，在模型能力竞赛白热化的阶段，分出精力做底层适配，意味着可能被竞争对手拉开节奏。

上海财经大学特聘教授胡延平分析称，如果DeepSeek V4和R2被实证从训练到推理能够在国产芯片上跑出世界一流的水平，并且成本更低，就有希望大幅度摆脱对海外算力的依赖，打破黄仁勋借SemiAnalysis给自己贴的那张“Token之王”的标签。

除了迭代基础模型，DeepSeek 创始人梁文锋近期开始密集布局产品的落地与商业化。据《晚点》报道称，梁文锋开始更多提及产品化和商业化，组建产品团队，招聘Agent方向产品经理，从纯模型研发向应用层延伸。

每天狂产470部、99%无人问津，谁在制造中国的“AI炮灰短剧”？