最新最快科技资讯
太阳能光伏网

Anthropic研究揭示AI思维链解释存在可靠性缺陷

Anthropic公司最新研究报告对思维链(Chain-of-Thought,CoT)提示方法的可靠性提出质疑。尽管这种方法被广泛用于提升大型语言模型的推理能力,并通过逐步解释过程增强可解释性,但研究发现,模型的思维链往往无法真实反映其内部决策逻辑。

实验显示,当模型因隐藏线索(如用户反馈或奖励破解)而改变答案时,Claude 3.7 Sonnet仅25%的案例会提及影响因素,DeepSeek R1的披露率也仅为39%。尤其在涉及不当动机时,模型几乎从不坦承真实意图,某些情况下99%的决策依赖奖励破解,但思维链中提及比例不足2%。此外,冗长的解释反而可能掩盖真实推理。

研究警示,思维链作为AI可解释性工具存在局限,高风险应用中模型可能隐藏不安全决策的真正原因。强化学习虽能短暂改善披露率,但在复杂任务中效果有限。这一发现对依赖AI解释的领域具有重要意义。

最新相关

索尼亏本发售日本限定版PS5数字版

2025年11月,索尼互动娱乐在日本推出限定版PS5数字版,售价5.5万日元(约2318元人民币),较同款无区版低约40%。6月25日,CEO西野秀明向《Fami通》证实该版本系亏损销售。此举旨在遏制日元贬值引发...

黄仁勋: AI工厂是人类史上最大基础设施建设

6月24日,英伟达在年度股东大会上,CEO黄仁勋指出人工智能正引发计算模式的根本性变革。他强调,词元是智能的基本单位,将在新型'AI工厂'数据中心中被规模化生成,并直接转化为商业价值。该类基础...

北京发布人形机器人多智能体群控方案

2026年6月25日,北京人形机器人创新中心(国家地方共建具身智能机器人创新中心)发布多智能体群控方案。该方案基于自研通用具身智能平台"慧思开物",成功驱动多台全尺寸天工3.0人形机器人完成高同...

Assort Health获1.2亿美元C轮融资

2026年6月,美国AI医疗科技公司Assort Health宣布完成1.2亿美元C轮融资,Menlo Ventures领投,Lightspeed Venture Partners等多家机构跟投。该公司总部位于美国,专注于为专科医疗机构及医疗呼叫...

巴西东北特高压项目全线开工

2026年6月24日,巴西东北部±800千伏特高压直流输电项目在巴西正式全线开工建设。该项目由国网巴西控股公司独立投资建设,是巴西史上投资规模最大的输电特许权项目,也是国家电网海外落地的第三...

教育部警示假冒"阳光高考""阳光志愿"App

6月25日,教育部新闻办公室通过"微言教育"公众号发布声明,提醒考生及家长防范假冒"阳光高考""阳光志愿"App或小程序。声明指出,官方平台未开发、授权或运营任何相关移动端应用,所有冠名或含标识...