谷歌近日推出Gemini 2.5计算机使用模型,该人工智能工具通过浏览器界面实现自动化操作。模型运用视觉理解能力分析用户指令,可完成表单填写、页面元素拖放等13项网页操作,在多项基准测试中表现优于现有方案。
该技术适用于用户界面测试及无API接口系统操作,已通过Google AI Studio向开发者开放。与OpenAI同日发布的ChatGPT智能体形成技术竞争,后者专注于复杂任务代理功能。谷歌特别说明,当前模型仅针对浏览器环境优化,暂不支持操作系统层级的控制。
Browserbase平台同步推出在线演示,用户可观摩模型执行"玩2048游戏"等实时任务。这标志着AI正逐步突破人机交互边界,为自动化操作开辟新的技术路径。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。