Token消耗骤降75%,这个国产智能体做成了Codex最想做的事

3 天前3.6k
当“更便宜了”成为显性传播标签时,DuMate这次升级看点反而被遮蔽

面对市场,现在所有通用Agent都在想,如何在保障智能体任务执行效果不受影响的前提下,将相同任务的Token消耗大幅降低了,从而增加任务完成率,提升用户使用使用。

最近,有一家产品做到了。他们一口气把用户的Token消耗降低了75%。6月15日,百度搭子DuMate宣布完成核心引擎升级:随着Token消耗大降,用户积分消耗也对应大幅下降。

但事实上,这次升级并非通过“让利”来完成,DuMate的Token消耗下降,而是一次智能体工程能力的集中验证。其背后的Harness引擎升级、安全沙箱重构与执行链路优化,才是理解这次升级的关键

用技术解决消耗,推动更多使用和落地,DuMate可能已经在完成包括Codex等最想做的事。而这套思路正是不久前百度Create大会上李彦宏提出,智能体时代应该以DAA(日活智能体数)来衡量的延续。依托新全栈AI云的基础设施升级,百度智能云或许正在改变未来通用智能体的竞争本质。

一、被误读的75%:智能体为什么天然“贵”,降本又靠什么

要理解这件事,得先回答一个大多数人没想过的问题:同样执行一个任务,智能体消耗的资源为什么远高于聊天机器人?

两者的工作模式有本质区别。聊天机器人是一问一答——用户输入问题,模型计算一次,输出结果,对话结束,Token消耗极低。智能体则完全不同。以DuMate执行一次“整理三个月AI行业动态”为例,底层发生的操作至少包括:拆解目标为若干子任务、多轮关键词搜索、逐条阅读并判断相关性、交叉验证信息准确性、时间线排序与去重、补充缺失信息、格式化输出、自我检查修正遗漏。每一步都在消耗Token。如果是跨表格数据分析或深度研究报告,步骤数量还会指数级增长。

image.png

这让智能体陷入一个天然矛盾:真正能干活,就必须走完这些步骤;走完这些步骤,就必然消耗大量计算资源。这个“贵”,不是缺陷,而是智能体有能力完成复杂任务的自然代价。

因此,降低Token消耗的真正考验在于:不能靠“少干活”来节省成本。压缩步骤、减少工具调用、跳过多轮验证,这些粗暴手段会直接拉低任务质量。必须在不牺牲效果的前提下,让同一条执行链路跑得更高效。这是一个纯粹的工程问题,与模型参数大小或版本高低无关。

DuMate的解决方案是Harness引擎——一套不直接面对用户的底层执行框架。如果把智能体比作一个干活的人,Harness就是他的“工作方法论”。当DuMate执行长达数小时甚至数天的任务时,Harness负责四件事:动态规划与中途修正任务路径,避免一条道走到黑;精准管理上下文,该记住的记住、该丢弃的丢弃,防止无用信息占用Token预算;按最小化原则调度工具,不做多余动作;在数十甚至上百步的连续操作中,维持动作不变形。

简单来说,Harness引擎就是让智能体“少走弯路、少说废话、少犯糊涂”。同样的模型,放在不同的工程框架里,效率和成本能差出几倍。PinchBench评测提供了直观对照——同一级别的模型,在DuMate框架中任务成功率达93.3%,而在Anthropic和OpenAI的同款场景下分别为89.0%和91.6%。模型是发动机,Harness是变速箱和底盘。跑多快、跑多远,不只取决于马力。

image.png

这次75%的消耗下降,本质上意味着Harness这套方法论变得更成熟了。据团队披露,优化覆盖了三个核心模块:自研安全沙箱的性能优化、模型推理成本压缩、Harness执行链路的升级。这三项全部是底层工程重构,而非前端的参数微调。这也是国内通用智能体产品中,首次通过Harness引擎及工程优化,实现任务消耗的大幅下降。

这组数据翻译成日常使用体验,其实很直白:让DuMate做同样一份调研报告、分析同样一张数据表、整理同样一批素材,消耗的积分只有过去的四分之一。它回应的不是“便宜了”的消费心理,而是智能体产品长期被压抑的一个刚需——不是“能不能干”,而是“用不用得起”。一个复杂任务动不动就花掉大量积分,用户每次使用前都要掂量值不值得,这种摩擦本身就在阻碍智能体成为日常工具。当成本降下来,“偶尔试试”才有可能变成“日常依赖”。

经济学家阿杰伊·阿格拉沃尔等人在《AI极简经济学》中提出过一个核心观点:一项技术是否具有革命性,不在于它能实现多么炫酷的效果,而在于它能否将某种关键成本降到足以改变人们行为模式的程度。Token消耗降低75%,降低的正是“让智能体执行复杂任务”这件事的成本门槛。只有当这个门槛低到用户不再需要反复掂量“值不值”的时候,行为模式才会真正发生改变。

二、两个故事,同一件事:当AI从“会说话”变成“会干活”

数据和技术的概念解读终究是有限的。更值得关注的,是优化后的产品在真实的人身上产生了什么变化。

长白山深处,70岁的老万已经和红外相机打了半辈子交道。他在山林里布设了几十台设备,多年拍摄积累了超过100TB的野生动物影像素材。过去,他的难题从来不是拍摄,而是处理素材——每天要从数十小时的视频中,靠人眼逐帧筛选出有动物出现的画面。“我现在看素材比拍摄都累,”他说,“一个一个看可不是简单的事,70岁了,眼神不行了。”

老万没有任何编程经验,身边也没有技术团队。他使用DuMate的方式,就是一个普通人最本能的沟通——用说话。他的原话是:“帮我把这段红外相机视频里有野生动物出现的画面挑出来,建个新文件夹,再按我平时的习惯整理一份监测日志。”

image.png

这句话到了DuMate手里,被自动拆解成一整套工作流:理解“野生动物画面”的筛选标准、在数小时视频中自动识别目标片段、提取归档,并按照老万过去的工作习惯生成监测日志。全程没有代码、没有参数、也不需要人工介入。

这个故事的核心,不是“一个老年人学会了用AI”。恰恰相反,是AI终于学会了用老年人的方式工作——理解一句大白话,规划一套流程,交付一个结果。过去用软件解决这类问题,用户需要学习写代码、配置参数、绘制流程图,本质上是人去适应机器的规则。老万的案例把这个关系反转了:机器去理解人的表达,执行层面的拆解和交付全部由系统完成。70岁、零编程、100TB——这三个数字摆在一起,比任何技术白皮书都更有说服力。

另一个故事发生在深圳的一间工作室里。栗噔噔曾是腾讯的产品经理,在职期间创办了一个滑雪服品牌并做到了规模化营收。现在她全职运营自媒体,是一个典型的“一人公司”——她要同时负责内容研究、选题策划、脚本撰写、视觉设计、商务对接等多项工作。

她曾算过一笔账:一个具备商业化能力的自媒体账号,正常运转至少需要覆盖五个岗位。一个人单干,产能天花板极低。她的解法不是雇人,而是将AI从“查资料的工具”重新定位为“首席运营官”

她让DuMate先学习自己Obsidian知识库里的内容资产,掌握其写作风格和知识体系;然后进行风格化仿写,完成初稿;接着自动适配公众号排版格式;再生成符合个人IP调性的封面图;最后同步至后台等待发布。这还没完——图文内容会被自动拆解为短视频脚本,通过视频生成工具完成二次产出。

image.png

全套流程只需五分钟。过去需要一个10人团队才能维持的内容运转体系,现在被压缩到一个人、一个Agent、五分钟。栗噔噔发现,过去最消耗精力的并非写作本身,而是排版、做封面、格式转换这些机械环节。当它们被DuMate自动化之后,她只需要对内容做最终把关。

两个故事指向了同一件事:DuMate不是在替代人的某项技能,而是在消除“一个人不够用”这个结构性困境。而当Token消耗下降75% 之后,这种消除的成本变得更低、频率可以更高。老万可以每天都让 DuMate筛选新素材,而不必数着积分过日子;栗噔噔则可以把更多精力放在创意和决策上,而不是被排版、做图、格式转换这些机械环节吃掉时间。

过去一年,大多数人对AI的印象停留在“它能写文章”“它能做 PPT”“它能画图”——这是功能视角。功能视角的问题是,你会不断追问“能不能做得更好”“能不能多一个新功能”,然后被大模型发布会的节奏牵着走。但老万和栗噔噔的故事提示了另一种视角:Agent真正的价值不在功能列表里,而在它能重新定义一个人能做的事的半径。70岁老人能独立管理100TB影像资产,一个人能跑起一支10人团队的内容产线——当“一个人的组织能力”被Agent重新标定,追问“还有什么新功能”已经没那么重要了。

《AI极简经济学》中有一个反复出现的洞见:当某种能力变得廉价,它的互补品就会升值。Agent把“执行”变便宜了,于是“判断”——决定做什么、做到什么程度、最终是否满意——反而变得更值钱。栗噔噔不再把时间耗在排版和封面上,但她对内容风格的把控、对选题的判断、对读者需求的感知,这些Agent替代不了的东西,恰恰成了她一人公司真正的壁垒。老万也一样:DuMate替他看完了100TB的素材,但他对“什么画面值得拍”“什么时候该进山”的判断,反而因为释放了精力而变得更有余裕。

三、从模型战争到工程深耕:这次升级对AI用户意味着什么

过去一年,国内AI行业的主流叙事高度集中在“新模型发布”上。谁的参数更大、谁的跑分更高、谁的多模态更强——每次更新都被包装成颠覆性事件,节奏越来越快。

在这条主线之外,有一条平行线索正被大多数人忽视:工程能力的持续积累。Token消耗降低75%,在发布会的叙事逻辑里或许只是一行小字。但对真实用户而言,它的体感比一个新功能更具体——因为每一次任务都在发生,每一次消耗都是真实的成本。

DuMate自3月22日正式上线以来,经历了“一天一版”的快速迭代。外界看到的成果是PinchBench登顶、DeepResearch Bench第一、月访问量以114.72%的增速登上AI产品榜。但这些成绩背后,是一套持续优化任务规划、工具调用、执行稳定性和成本控制的工程体系在默默支撑。Token消耗降低75%并非一次孤立的版本更新,而是这条持续优化曲线上一个可被量化的新坐标。

image.png

百度众多AI产品过去几年见证了行业发展的完整周期。而DuMate的持续迭代,正在传递一个不同于“模型军备竞赛”的叙事:当行业注意力都集中在参数和跑分上时,百度选择了另一条路——在Agent的工程交付层面构建能力壁垒。从“能回答”到“能干活”,再从“能干活”到“能稳定、低成本地干活”,每一步都不够华丽,但每一步都在将AI从实验室演示推向真实的工作场景。

放在更大的坐标系里看,DuMate的这次引擎升级,触碰了一个Agent行业绕不开的底层命题:通用智能体的竞争,终局不取决于谁家的模型参数更大、跑分更高,而取决于谁能把“执行复杂任务”这件事做得足够可靠、足够经济、足够日常。Token消耗降低75%是一个技术指标,但它背后更值得关注的逻辑是——在不牺牲质量的前提下系统性压缩成本,这正是Agent从“惊艳的Demo”迈向“生产级工具”必须跨过的那道坎。

《AI极简经济学》的三位作者提醒过:技术改变的是工具,不变的是经济规律。Token消耗下降75%真正的长期意义,不在于用户“省了积分”,而在于它重新标定了“一个人+一个Agent”这个生产单元的成本结构。当这个结构的运行成本降到足够低,一人公司、超级个体就不再只是少数先行者的实验,而会成为可规模化扩散的新常态。

过去两年,AI行业制造了足够多的“惊艳瞬间”。但下一个阶段真正稀缺的,不是又一个让人惊叹的能力展示,而是让用户用完一次后,明天还愿意打开、舍得打开、想得起打开的产品

DuMate将成本削减了四分之三,本质上是在为这个“明天”铺路。当整个行业开始从“制造惊叹”转向“培养习惯”,AI才算真正走完了从实验室到日常的最后一段路。

从这个意义上说,DuMate的这次引擎升级也是一次有力的回应。过去几年,外界对百度AI的判断常常在两级之间摇摆——要么是聚光灯下的过高期待,要么是低谷期的全盘否定。但工程能力不靠发布会证明,它靠的是把一件事反复做、持续做,在无人注意的细节里一寸一寸地打磨。Token消耗降低75%就是这种“磨”出来的结果:不动声色,却极度硬核。这才是技术公司该交出的答卷,也是百度对未来赛道判断的最有利支撑。


格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

App内直接打开
商务、渠道、广告合作/招聘立即咨询

相关文章

从首饰到散热!培育钻石成功逆袭,哪些公司在布局?

局外人 · 1小时前

cover_pic

持续扩张与万亿级海外“跃升” 高端制造业指数近一年涨超78%

金证研 · 1小时前

cover_pic

全球科技暴跌,AI泡沫终于要破裂了?真相大白,警惕被带节奏!

新能源正前方 · 2小时前

cover_pic
我也说两句