09:02
红杉中国正式开源AI基准测试xbench评测集
格隆汇6月18日|6月18日,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbench的长期有效。

2025-06-18626.3k

商务、渠道、广告合作/招聘立即咨询

相关文章

打不停、谈不拢?特朗普回应伊朗10项停战条款:有意义,但不够好

林春木 · 昨天 23:59

cover_pic

史诗级暴跌“一周年”,A股接下来如何走?

哥吉拉 · 昨天 15:51

cover_pic

金融圈炸锅!分析师冒死深入霍尔木兹海峡:航道根本没关!

小摩根 · 昨天 20:50

cover_pic