近日,关于Meta新推出的Llama 4 Maverick和Scout模型存在不当行为的传言引发关注。传言称,Meta可能通过在测试集上进行训练来提升模型表现,同时掩盖其不足。对此,Meta生成式人工智能副总裁艾哈迈德・阿尔・达赫勒明确表示,这一说法“根本不属实”。
在人工智能领域,测试集通常用于评估模型性能。如果提前在测试集上训练,可能会人为抬高模型分数,造成误导。尽管如此,Maverick和Scout在某些任务上的表现确实不够理想,且不同版本间存在差异,这为谣言提供了土壤。阿尔・达赫勒承认,部分用户在使用这些模型时遇到了质量问题,主要是因为模型发布后尚未完全统一各版本。他表示,团队正积极修复问题并加强与合作伙伴的协调。