16:26
DeepSeek V4基准测试泄露?消息疑似为假
格隆汇2月16日|据新智元,一张图在全网疯狂刷屏。据说,DeepSeek V4的基准测试已经泄露,整个AI圈都震了。有大V总结道:AI编程大战,已经达到了新的高峰。泄露信息显示,DeepSeek V4在SWE-bench Verified上取得了惊人的83.7%,超过了Claude Opus 4.5(80.9%)和GPT-5.2(80%)。可以说,100万+上下文长度+Engram记忆机制=真正的全仓库级推理能力。

还有网友综合了全网DeepSeek V4消息,不仅在HumanEval、SWE_bench、上下文和成本上刷新成绩,而且发布时间预计在春节,也就是明天!成本:据称比OpenAI便宜20到40倍,预计发布时间:2月17日。如果是真的,DeepSeek将又一次改变游戏规则。总之,DeepSeek V4的发布时间,很可能是周一。据说,这是首个不落后于闭源顶尖模型,甚至能与之匹敌甚至超越的模型。

不过,这几张流传出来的基准测试,很快被怀疑是假的。比如在官方评分系统下,不可能有模型达到99.4%的分数。最高分只能是99.2%或 100%。另Epoch AI也确认,FrontierMath的数据是伪造的,因为只有他们和OpenAI有权对该数据集进行评估。至少有两个基准测试被打假,证明这些图可信度确实不高。有趣的是,即便是假的,这也说明DeepSeek的确深得人心,网上的夸大其词的泄露就是DeepSeek成功最大的标志。
相关主题/热点

2026-02-16551.8k

商务、渠道、广告合作/招聘立即咨询

相关文章

2026年YH调研:智能充电车企业占有率与市场排名动态

QYResearch信息咨询 · 2小时前

cover_pic

YHResearch:无线拉力传感器市场现状及发展前景2026

QYResearch信息咨询 · 3小时前

cover_pic

半导体封装底部填充胶行业报告 | 2026年全球市场规模989百万美元,年增长11.0%

QYResearch信息咨询 · 3小时前

cover_pic

聚焦2026!人工智能驱动的投资平台市场占有率、厂商排名与趋势分析报告

QYResearch信息咨询 · 4小时前

cover_pic

2026年智能激光驱鸟装置市场需求调研:年度报告和十五五未来潜力展望

QYResearch信息咨询 · 5小时前

cover_pic

YHResearch:智慧管网解决方案市场现状及发展前景2026

QYResearch信息咨询 · 5小时前

cover_pic