2026年1月,谷歌、OpenAI与Anthropic等公司正以《精灵宝可梦》系列游戏为测试平台评估大模型性能。Anthropic负责人David Hershey每日直播用Claude游玩该游戏,旨在检验其逻辑推理、风险评估与长期规划能力。受此启发,开发者陆续开展Gemini、GPT等模型的同类测试。目前Gemini与GPT已通关《宝可梦蓝》,Claude尚未通关。该方法因非线性流程与多维度决策特性,成为量化分析AI能力边界的新型评估手段。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信