全球视野, 下注中国
打开APP
18:48
通义实验室推出通用智能体评测基准PawBench
格隆汇6月5日|通义实验室推出评测基准PawBench,v1.0版本已开源。它面向个人助理与通用智能体场景,将底座模型与运行框架(Harness)纳入同一评测体系。据介绍,PawBench不是单纯做一个模型排行榜,而是把“模型、Harness、任务”三者放在一起做交叉评测。
2026-06-05
188.4k
商务、渠道、广告合作/招聘
立即咨询
相关文章
事关私募基金高质量发展,国办公布指导意见!
华一席 · 3小时前
智力折叠时代,悄然来临
独行侠 · 1小时前