Token消耗骤降75%，这个国产智能体做成了Codex最想做的事

全球视野, 下注中国

打开APP

3 天前3.6k

深潜 atom

深潜 atom 是新锐的财经科技智库。我们致力于透过物理、事理、情理、数理的认知，来重新审视商业本身，为您呈现有价值的行业分析洞察和有辨识度的思考创见。

+关注

当“更便宜了”成为显性传播标签时，DuMate这次升级看点反而被遮蔽

面对市场，现在所有通用Agent都在想，如何在保障智能体任务执行效果不受影响的前提下，将相同任务的Token消耗大幅降低了，从而增加任务完成率，提升用户使用使用。

最近，有一家产品做到了。他们一口气把用户的Token消耗降低了75%。6月15日，百度搭子DuMate宣布完成核心引擎升级：随着Token消耗大降，用户积分消耗也对应大幅下降。

但事实上，这次升级并非通过“让利”来完成，DuMate的Token消耗下降，而是一次智能体工程能力的集中验证。其背后的Harness引擎升级、安全沙箱重构与执行链路优化，才是理解这次升级的关键。

用技术解决消耗，推动更多使用和落地，DuMate可能已经在完成包括Codex等最想做的事。而这套思路正是不久前百度Create大会上李彦宏提出，智能体时代应该以DAA（日活智能体数）来衡量的延续。依托新全栈AI云的基础设施升级，百度智能云或许正在改变未来通用智能体的竞争本质。

一、被误读的75%：智能体为什么天然“贵”，降本又靠什么

要理解这件事，得先回答一个大多数人没想过的问题：同样执行一个任务，智能体消耗的资源为什么远高于聊天机器人？

两者的工作模式有本质区别。聊天机器人是一问一答——用户输入问题，模型计算一次，输出结果，对话结束，Token消耗极低。智能体则完全不同。以DuMate执行一次“整理三个月AI行业动态”为例，底层发生的操作至少包括：拆解目标为若干子任务、多轮关键词搜索、逐条阅读并判断相关性、交叉验证信息准确性、时间线排序与去重、补充缺失信息、格式化输出、自我检查修正遗漏。每一步都在消耗Token。如果是跨表格数据分析或深度研究报告，步骤数量还会指数级增长。

这让智能体陷入一个天然矛盾：真正能干活，就必须走完这些步骤；走完这些步骤，就必然消耗大量计算资源。这个“贵”，不是缺陷，而是智能体有能力完成复杂任务的自然代价。

因此，降低Token消耗的真正考验在于：不能靠“少干活”来节省成本。压缩步骤、减少工具调用、跳过多轮验证，这些粗暴手段会直接拉低任务质量。必须在不牺牲效果的前提下，让同一条执行链路跑得更高效。这是一个纯粹的工程问题，与模型参数大小或版本高低无关。

DuMate的解决方案是Harness引擎——一套不直接面对用户的底层执行框架。如果把智能体比作一个干活的人，Harness就是他的“工作方法论”。当DuMate执行长达数小时甚至数天的任务时，Harness负责四件事：动态规划与中途修正任务路径，避免一条道走到黑；精准管理上下文，该记住的记住、该丢弃的丢弃，防止无用信息占用Token预算；按最小化原则调度工具，不做多余动作；在数十甚至上百步的连续操作中，维持动作不变形。

简单来说，Harness引擎就是让智能体“少走弯路、少说废话、少犯糊涂”。同样的模型，放在不同的工程框架里，效率和成本能差出几倍。PinchBench评测提供了直观对照——同一级别的模型，在DuMate框架中任务成功率达93.3%，而在Anthropic和OpenAI的同款场景下分别为89.0%和91.6%。模型是发动机，Harness是变速箱和底盘。跑多快、跑多远，不只取决于马力。

这次75%的消耗下降，本质上意味着Harness这套方法论变得更成熟了。据团队披露，优化覆盖了三个核心模块：自研安全沙箱的性能优化、模型推理成本压缩、Harness执行链路的升级。这三项全部是底层工程重构，而非前端的参数微调。这也是国内通用智能体产品中，首次通过Harness引擎及工程优化，实现任务消耗的大幅下降。

这组数据翻译成日常使用体验，其实很直白：让DuMate做同样一份调研报告、分析同样一张数据表、整理同样一批素材，消耗的积分只有过去的四分之一。它回应的不是“便宜了”的消费心理，而是智能体产品长期被压抑的一个刚需——不是“能不能干”，而是“用不用得起”。一个复杂任务动不动就花掉大量积分，用户每次使用前都要掂量值不值得，这种摩擦本身就在阻碍智能体成为日常工具。当成本降下来，“偶尔试试”才有可能变成“日常依赖”。

经济学家阿杰伊·阿格拉沃尔等人在《AI极简经济学》中提出过一个核心观点：一项技术是否具有革命性，不在于它能实现多么炫酷的效果，而在于它能否将某种关键成本降到足以改变人们行为模式的程度。Token消耗降低75%，降低的正是“让智能体执行复杂任务”这件事的成本门槛。只有当这个门槛低到用户不再需要反复掂量“值不值”的时候，行为模式才会真正发生改变。

二、两个故事，同一件事：当AI从“会说话”变成“会干活”

数据和技术的概念解读终究是有限的。更值得关注的，是优化后的产品在真实的人身上产生了什么变化。

长白山深处，70岁的老万已经和红外相机打了半辈子交道。他在山林里布设了几十台设备，多年拍摄积累了超过100TB的野生动物影像素材。过去，他的难题从来不是拍摄，而是处理素材——每天要从数十小时的视频中，靠人眼逐帧筛选出有动物出现的画面。“我现在看素材比拍摄都累，”他说，“一个一个看可不是简单的事，70岁了，眼神不行了。”

老万没有任何编程经验，身边也没有技术团队。他使用DuMate的方式，就是一个普通人最本能的沟通——用说话。他的原话是：“帮我把这段红外相机视频里有野生动物出现的画面挑出来，建个新文件夹，再按我平时的习惯整理一份监测日志。”

这句话到了DuMate手里，被自动拆解成一整套工作流：理解“野生动物画面”的筛选标准、在数小时视频中自动识别目标片段、提取归档，并按照老万过去的工作习惯生成监测日志。全程没有代码、没有参数、也不需要人工介入。

这个故事的核心，不是“一个老年人学会了用AI”。恰恰相反，是AI终于学会了用老年人的方式工作——理解一句大白话，规划一套流程，交付一个结果。过去用软件解决这类问题，用户需要学习写代码、配置参数、绘制流程图，本质上是人去适应机器的规则。老万的案例把这个关系反转了：机器去理解人的表达，执行层面的拆解和交付全部由系统完成。70岁、零编程、100TB——这三个数字摆在一起，比任何技术白皮书都更有说服力。

另一个故事发生在深圳的一间工作室里。栗噔噔曾是腾讯的产品经理，在职期间创办了一个滑雪服品牌并做到了规模化营收。现在她全职运营自媒体，是一个典型的“一人公司”——她要同时负责内容研究、选题策划、脚本撰写、视觉设计、商务对接等多项工作。

她曾算过一笔账：一个具备商业化能力的自媒体账号，正常运转至少需要覆盖五个岗位。一个人单干，产能天花板极低。她的解法不是雇人，而是将AI从“查资料的工具”重新定位为“首席运营官”。

她让DuMate先学习自己Obsidian知识库里的内容资产，掌握其写作风格和知识体系；然后进行风格化仿写，完成初稿；接着自动适配公众号排版格式；再生成符合个人IP调性的封面图；最后同步至后台等待发布。这还没完——图文内容会被自动拆解为短视频脚本，通过视频生成工具完成二次产出。

全套流程只需五分钟。过去需要一个10人团队才能维持的内容运转体系，现在被压缩到一个人、一个Agent、五分钟。栗噔噔发现，过去最消耗精力的并非写作本身，而是排版、做封面、格式转换这些机械环节。当它们被DuMate自动化之后，她只需要对内容做最终把关。

两个故事指向了同一件事：DuMate不是在替代人的某项技能，而是在消除“一个人不够用”这个结构性困境。而当Token消耗下降75% 之后，这种消除的成本变得更低、频率可以更高。老万可以每天都让 DuMate筛选新素材，而不必数着积分过日子；栗噔噔则可以把更多精力放在创意和决策上，而不是被排版、做图、格式转换这些机械环节吃掉时间。

过去一年，大多数人对AI的印象停留在“它能写文章”“它能做 PPT”“它能画图”——这是功能视角。功能视角的问题是，你会不断追问“能不能做得更好”“能不能多一个新功能”，然后被大模型发布会的节奏牵着走。但老万和栗噔噔的故事提示了另一种视角：Agent真正的价值不在功能列表里，而在它能重新定义一个人能做的事的半径。70岁老人能独立管理100TB影像资产，一个人能跑起一支10人团队的内容产线——当“一个人的组织能力”被Agent重新标定，追问“还有什么新功能”已经没那么重要了。

《AI极简经济学》中有一个反复出现的洞见：当某种能力变得廉价，它的互补品就会升值。Agent把“执行”变便宜了，于是“判断”——决定做什么、做到什么程度、最终是否满意——反而变得更值钱。栗噔噔不再把时间耗在排版和封面上，但她对内容风格的把控、对选题的判断、对读者需求的感知，这些Agent替代不了的东西，恰恰成了她一人公司真正的壁垒。老万也一样：DuMate替他看完了100TB的素材，但他对“什么画面值得拍”“什么时候该进山”的判断，反而因为释放了精力而变得更有余裕。

三、从模型战争到工程深耕：这次升级对AI用户意味着什么

过去一年，国内AI行业的主流叙事高度集中在“新模型发布”上。谁的参数更大、谁的跑分更高、谁的多模态更强——每次更新都被包装成颠覆性事件，节奏越来越快。

但在这条主线之外，有一条平行线索正被大多数人忽视：工程能力的持续积累。Token消耗降低75%，在发布会的叙事逻辑里或许只是一行小字。但对真实用户而言，它的体感比一个新功能更具体——因为每一次任务都在发生，每一次消耗都是真实的成本。

DuMate自3月22日正式上线以来，经历了“一天一版”的快速迭代。外界看到的成果是PinchBench登顶、DeepResearch Bench第一、月访问量以114.72%的增速登上AI产品榜。但这些成绩背后，是一套持续优化任务规划、工具调用、执行稳定性和成本控制的工程体系在默默支撑。Token消耗降低75%并非一次孤立的版本更新，而是这条持续优化曲线上一个可被量化的新坐标。

百度众多AI产品过去几年见证了行业发展的完整周期。而DuMate的持续迭代，正在传递一个不同于“模型军备竞赛”的叙事：当行业注意力都集中在参数和跑分上时，百度选择了另一条路——在Agent的工程交付层面构建能力壁垒。从“能回答”到“能干活”，再从“能干活”到“能稳定、低成本地干活”，每一步都不够华丽，但每一步都在将AI从实验室演示推向真实的工作场景。

放在更大的坐标系里看，DuMate的这次引擎升级，触碰了一个Agent行业绕不开的底层命题：通用智能体的竞争，终局不取决于谁家的模型参数更大、跑分更高，而取决于谁能把“执行复杂任务”这件事做得足够可靠、足够经济、足够日常。Token消耗降低75%是一个技术指标，但它背后更值得关注的逻辑是——在不牺牲质量的前提下系统性压缩成本，这正是Agent从“惊艳的Demo”迈向“生产级工具”必须跨过的那道坎。

《AI极简经济学》的三位作者提醒过：技术改变的是工具，不变的是经济规律。Token消耗下降75%真正的长期意义，不在于用户“省了积分”，而在于它重新标定了“一个人+一个Agent”这个生产单元的成本结构。当这个结构的运行成本降到足够低，一人公司、超级个体就不再只是少数先行者的实验，而会成为可规模化扩散的新常态。

过去两年，AI行业制造了足够多的“惊艳瞬间”。但下一个阶段真正稀缺的，不是又一个让人惊叹的能力展示，而是让用户用完一次后，明天还愿意打开、舍得打开、想得起打开的产品。

DuMate将成本削减了四分之三，本质上是在为这个“明天”铺路。当整个行业开始从“制造惊叹”转向“培养习惯”，AI才算真正走完了从实验室到日常的最后一段路。

从这个意义上说，DuMate的这次引擎升级也是一次有力的回应。过去几年，外界对百度AI的判断常常在两级之间摇摆——要么是聚光灯下的过高期待，要么是低谷期的全盘否定。但工程能力不靠发布会证明，它靠的是把一件事反复做、持续做，在无人注意的细节里一寸一寸地打磨。Token消耗降低75%就是这种“磨”出来的结果：不动声色，却极度硬核。这才是技术公司该交出的答卷，也是百度对未来赛道判断的最有利支撑。

格隆汇声明：文中观点均来自原作者，不代表格隆汇观点及立场。特别提醒，投资决策需建立在独立思考之上，本文内容仅供参考，不作为实际操作建议，交易风险自担。

App内直接打开

商务、渠道、广告合作/招聘立即咨询

我也说两句

相关文章

从首饰到散热！培育钻石成功逆袭，哪些公司在布局？

持续扩张与万亿级海外“跃升” 高端制造业指数近一年涨超78%

全球科技暴跌，AI泡沫终于要破裂了？真相大白，警惕被带节奏！