2025年12月13日,谷歌DeepMind发布了FACTS基准测试,评估AI模型在事实准确性方面的能力。该测试涵盖知识掌握、搜索使用、文档引用和图像理解四个维度。结果显示,Gemini 3 Pro以69%的准确率领先,但主流模型仍有约三分之一概率出错。报道强调,AI在金融、医疗、法律等高风险领域应用时,可能因虚假信息引发严重后果,已有律所因员工使用ChatGPT生成虚假判例而将其解雇。谷歌希望通过该基准加速改进AI可靠性,目前AI虽进步明显,仍远未达到人类水平。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信