苹果机器学习团队近日在GitHub开源了视觉语言模型FastVLM,提供0.5B、1.5B和7B三个版本。该模型基于苹果自研MLX框架开发,结合LLaVA代码库训练,专为Apple Silicon设备优化,实现了高分辨率图像处理的近实时响应,且计算量显著低于同类模型。
FastVLM的核心是新型混合视觉编码器FastViTHD,其处理速度较同类提升3.2倍,体积缩小至3.6分之一。测试显示,最小版本较LLaVA-OneVision-0.5B模型首词元响应速度提升85倍。搭配Qwen2-7B大语言模型时,性能超越Cambrian-1-8B等研究成果。
苹果技术团队表示,FastVLM在延迟、模型大小和准确性间实现了最优平衡。该技术或应用于苹果正在研发的AI眼镜等穿戴设备,支持本地化实时视觉交互,减少云端依赖。FastVLM的推出标志着苹果正构建完整的端侧AI技术生态。