苹果机器学习研究中心近日发布一篇论文,指出当前AI模型虽能生成复杂“思考链”,但缺乏真正推理能力,主要依赖模式匹配与记忆。研究团队对多个前沿大型推理模型(如OpenAI、DeepSeek、Anthropic及谷歌相关模型)进行了系统评估。
结果显示,这些模型在中等复杂度任务上表现优异,但在高复杂度任务中性能急剧下降至“零准确率”。值得注意的是,即使算力充足,模型用于“思考”的token数量随任务难度上升反而减少,暴露出现有推理方法的根本局限。
研究通过可控解谜环境分析发现,模型表现可分为三个阶段:低复杂度任务传统模型更优,中等复杂度任务推理模型占优,而高复杂度任务则普遍失效。此外,推理模型在精确计算和跨任务一致性方面存在不足。
该研究呼吁重新审视当前评估范式,并提出更细致的实验框架,以深入探索语言推理模型的能力与局限,为未来技术发展提供方向。