红杉中国正式开源AI基准测试xbench评测集—

打开APP

红杉中国正式开源AI基准测试xbench评测集

顶端财经快讯

2025-06-18 08:49:49

关注

6月18日，红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示，未来将基于大模型和AI Agent的发展情况不断动态更新评测集，并且采用“黑白盒”机制，既保证xbench的发展可以服务更多的大模型和Agent开发者，同时尽力避免静态评测集经常出现的过拟合问题，确保xbench的长期有效。

热评

暂无评论，去APP抢占沙发吧