人工智能社区Hugging Face近日推出4.5亿参数的开源机器人模型SmolVLA,该模型主打轻量化和高普适性,可在MacBook Pro等消费级硬件上运行,显著降低了开发者入门门槛。
当前,机器人模型普遍采用“视觉-语言-行动”(VLA)架构,但训练成本高昂且多为闭源。SmolVLA通过优化模型结构,结合Transformer与flow-matching解码器,并采用四项关键技术提升效率,包括减少视觉Token数量和轻量化视觉编码器等。
Hugging Face表示,尽管训练数据仅包含不到3万个任务记录,SmolVLA在模拟环境和真实场景中的表现媲美甚至超越大型模型。此外,其异步推理架构增强了机器人在动态环境中的响应能力。
该模型已在Hugging Face平台开源,配套训练方法亦公开于GitHub,为通用机器人智能体研究提供了更易获取的工具。