牛津大学互联网研究所联合30多位科研人员的最新研究表明,当前用于评估人工智能系统性能的基准测试普遍存在夸大AI能力、缺乏科学严谨性的问题。研究团队系统分析了445项主流AI基准测试,发现约半数测试未能明确定义测量目标,且过度依赖重复数据与陈旧方法。
研究指出,被视为行业标准的GSM8K数学推理测试等基准,其测量结果与AI实际能力存在显著偏差。共同第一作者亚当・马赫迪强调,许多测试实际测量的内容与宣称目标严重不符。该研究提出八项改进建议,包括明确定义评估范围、构建更具代表性的任务组合等,旨在提升AI评估体系的透明度与可信度。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信