尽管人工智能(AI)能在编程、图像生成和文本创作等领域表现出色,但在日常生活中的基础任务上却频频出错。据外媒LiveScience报道,一项最新研究发现,当前的AI模型在“看钟”和“算日子”等任务上的表现令人堪忧。测试显示,包括Meta的Llama 3.2-Vision和谷歌的Gemini 2.0在内的多个大语言模型,在判断时钟时间和推算日期星期的任务中,正确率分别仅为38.7%和26.3%。
爱丁堡大学研究员Rohit Saxena指出,AI在时间与日历概念上的不足,反映了其空间推理能力的局限性。例如,识别指针角度、理解不同风格表盘或处理复杂日历规则对AI而言极具挑战。研究团队认为,这一问题源于训练数据缺乏代表性以及AI推理过程的不一致性。为提升AI在时间敏感场景中的应用能力,未来需优化训练数据,并强化逻辑推理与空间感知的整合。