最新最快科技资讯
太阳能光伏网

苹果研究揭示AI推理模型的局限性

苹果机器学习研究中心近日发布一篇论文,指出当前AI模型虽能生成复杂“思考链”,但缺乏真正推理能力,主要依赖模式匹配与记忆。研究团队对多个前沿大型推理模型(如OpenAI、DeepSeek、Anthropic及谷歌相关模型)进行了系统评估。

结果显示,这些模型在中等复杂度任务上表现优异,但在高复杂度任务中性能急剧下降至“零准确率”。值得注意的是,即使算力充足,模型用于“思考”的token数量随任务难度上升反而减少,暴露出现有推理方法的根本局限。

研究通过可控解谜环境分析发现,模型表现可分为三个阶段:低复杂度任务传统模型更优,中等复杂度任务推理模型占优,而高复杂度任务则普遍失效。此外,推理模型在精确计算和跨任务一致性方面存在不足。

该研究呼吁重新审视当前评估范式,并提出更细致的实验框架,以深入探索语言推理模型的能力与局限,为未来技术发展提供方向。

最新相关

适马拟9月发布65mm超大光圈自动对焦镜头

据悉,适马计划于2026年9月推出一款65mm全画幅自动对焦镜头,最大光圈将超越F1.2,极有可能为F1.0。该镜头将兼容L卡口与索尼E卡口,定位高性能专业级产品。相较2020年发布的65mm F2 Contemporary...

三星为Galaxy Z TriFold 2研发全新铰链

2026年4月17日,据供应链消息,三星已启动Galaxy Z TriFold 2三折叠手机全新铰链研发。该铰链系"从零开发",旨在降低整机厚度(初代折叠态厚12.9mm,展开态3.9–4.2mm)。新铰链将同步应用于Z Fold8...

极氪8X今晚上市 售35.68万元起

2026年4月17日晚,极氪正式发布旗舰电混SUV--极氪8X,官方指导价35.68万元起。新车提供Max、Ultra、Ultra+及曜影四款车型,5月31日前下定可享2.7万元首发权益。上市29分钟内大定破万辆,Ultra及以...

首创证券向港交所提交上市申请

4月17日,首创证券股份有限公司正式向香港交易所提交上市申请。该公司注册地为北京,拟通过首次公开发行股票募集资金。本次IPO由中信证券、中国银河、中信建投及中银国际担任联席保荐人。此举标...

Win11更新后强制打开Edge展示虚假新功能

2026年4月17日,微软在Windows 11例行周二更新中引入一项争议性设计: 重启后自动启动Edge浏览器,全屏显示'Windows更新已完成'引导页。该页面无关闭选项,用户需连续点击6次'Next'按钮,最终跳转...

三星回应停推小屏手机: 用户需求转向大屏

2026年4月17日,三星英国/爱尔兰移动体验部门产品副总裁Annika Bizon在Reddit问答中解释,公司停止开发小屏手机,主因是用户需求变化。她指出,当前手机已广泛用于办公、视频、游戏及内容创作,大...

宁德时代股东拟询价转让1.27%股份

4月17日,宁德时代公告披露,持股6.23%的股东宁波联合创新新能源投资管理合伙企业(有限合伙)拟以询价转让方式减持公司股份5800万股,占总股本1.27%。此次转让系股东自主决策,不涉及控股股东及实...