一项由牛津大学、华盛顿大学等机构联合开展的研究指出,当前大语言模型(LLM)的基准测试普遍存在严重方法论问题。团队分析了2018至2024年间顶会发布的445篇相关论文,发现每篇至少存在一项重大缺陷。近半数研究未明确定义“推理”“对齐”等核心概念,61%的测试混淆多项复合能力,结果难以解读。93%的论文采用便利抽样,38%存在数据复用,削弱了评估真实性。此外,仅16%的研究使用统计校验,多数缺乏置信区间与误差分析。专家呼吁未来应明确测试边界、杜绝数据污染,并结合定量与定性方法提升评估严谨性。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信