最新最快科技资讯
太阳能光伏网

苹果研究揭示AI推理模型的局限性

苹果机器学习研究中心近日发布一篇论文,指出当前AI模型虽能生成复杂“思考链”,但缺乏真正推理能力,主要依赖模式匹配与记忆。研究团队对多个前沿大型推理模型(如OpenAI、DeepSeek、Anthropic及谷歌相关模型)进行了系统评估。

结果显示,这些模型在中等复杂度任务上表现优异,但在高复杂度任务中性能急剧下降至“零准确率”。值得注意的是,即使算力充足,模型用于“思考”的token数量随任务难度上升反而减少,暴露出现有推理方法的根本局限。

研究通过可控解谜环境分析发现,模型表现可分为三个阶段:低复杂度任务传统模型更优,中等复杂度任务推理模型占优,而高复杂度任务则普遍失效。此外,推理模型在精确计算和跨任务一致性方面存在不足。

该研究呼吁重新审视当前评估范式,并提出更细致的实验框架,以深入探索语言推理模型的能力与局限,为未来技术发展提供方向。

最新相关

哥伦比亚发生6.4级地震

6月8日,哥伦比亚地质局报告称,该国发生6.4级地震。目前暂无人员伤亡和财产损失的具体报告,相关部门正进一步评估震情及影响。免责声明: 本文内容由开放的智能模型自动生成,仅供参考。

中际旭创确认1.6T产品二季度出货量将持续增长

6月8日,中际旭创在互动平台回应投资者提问时表示,公司1.6T产品二季度出货量将持续增长。这一消息表明中际旭创在高速光模块领域的市场表现正在稳步提升,进一步巩固其行业地位。免责声明: 本文...

国产具身大模型首次实现汽车制造全场景验证

近日,智平方与东风柳汽达成战略合作,国产具身大模型首次在汽车制造领域完成全场景验证。此举标志着我国AI技术在工业应用方面取得新突破。同时,2025全球人工智能技术大会在杭州召开,进一步探讨...

2025年国内汽车降价趋势分析

乘联分会秘书长崔东树发文指出,2025年国内汽车行业降价促销力度显著降低,尤其在3至5月期间,降价车型数量明显减少。数据显示,1月份有7款车型降价,2月份增至21款,3月份仍维持较高水平的23款,而4...

英国医生用人粪制药对抗超级细菌

6月8日,英国医疗团队尝试将健康人粪便制成冻干粉,供感染超级细菌的患者服用。通过利用粪便中的有益菌消灭耐药性强的超级细菌,试验结果表明该疗法效果显著且充满希望。免责声明: 本文内容由开...

火星火山穿透云层: NASA捕捉历史性瞬间

NASA的2001火星奥德赛号轨道飞行器近日拍摄到一张罕见照片,记录了火星巨型火山阿尔西亚山在黎明前从云层中显现的壮观景象。这张摄于5月2日的照片,展示了这座高达20公里的火山(约为地球最高火...