热点
"VitaBench" 相关文章
美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准
oschina.net 2025-11-06T07:39:48.000000Z
美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准
美团技术团队 2025-11-05T03:06:43.000000Z
美团 LongCat 团队发布 Agent 评测基准“VitaBench”
oschina.net 2025-10-20T10:41:58.000000Z
2025.10.01 | 自对弈零标注训练;MCP代理深度评测
HuggingFace 每日AI论文速递 2025-10-02T17:36:32.000000Z
VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications
cs.AI updates on arXiv.org 2025-10-01T06:01:57.000000Z