2025年10月21日,美团LongCat团队正式发布面向真实生活场景的复杂任务大模型智能体评测基准VitaBench。该基准全称为Versatile Interactive Tasks Benchmark,旨在评估大模型在贴近现实、多步骤交互任务中的综合能力。VitaBench覆盖多样化生活服务场景,支持对智能体在规划、推理、工具调用等方面的表现进行系统评测。目前,该项目已全面开源,供学术界和产业界免费使用,助力大模型智能体技术的发展与落地。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。