科罗拉多大学博尔德分校的研究人员在《计算语言学协会研究发现》上发表论文,指出大型语言模型(LLM)在解决数独等逻辑问题时存在显著局限性。实验显示,即使是6×6数独,多数LLM在没有外部辅助的情况下难以完成,且无法清晰解释决策过程。例如,某些模型会给出与解题无关的回答,甚至转而讨论天气预报。
研究负责人阿舒托什・特里维迪教授强调,AI解释能力的缺失可能影响其可靠性。这一问题不仅限于数独,在国际象棋、汉诺塔等逻辑游戏中同样存在。随着AI在驾驶、商业决策等关键领域的应用扩展,透明、准确的解释能力将成为评估其可信度的核心标准。特里维迪警告,缺乏真实性的解释可能接近“操纵”,需引起高度重视。