最新最快科技资讯
太阳能光伏网

OpenAI新模型幻觉问题加剧,准确性面临挑战

OpenAI近期发布的o3和o4-mini模型在编程与数学等领域表现突出,但其“幻觉”问题却显著恶化。据外媒TechCrunch报道,这两款推理模型的幻觉频率不仅超过前代o1、o1-mini和o3-mini,甚至高于传统非推理模型。内部测试显示,o3在PersonQA基准测试中的幻觉率高达33%,而o4-mini更达48%。相比之下,前代模型o1和o3-mini的幻觉率分别为16%和14.8%。

这一反常现象表明,随着模型规模扩大,幻觉问题反而更加严重。Transluce实验室的测试发现,o3曾虚构出在MacBook Pro上运行代码的操作,尽管其并无此能力。OpenAI发言人Niko Felix承认,解决幻觉问题是当前研究的重点,公司正努力提升模型的准确性和可靠性。然而,这一挑战仍需进一步探索与突破。

最新相关

苹果推送iOS/iPadOS 26开发者预览版Beta 3更新

苹果今日向iPhone和iPad用户推送了iOS/iPadOS 26开发者预览版Beta 3更新(内部版本号: 23A5287g),距离上一版本发布间隔14天。用户可通过两种方式升级测试版系统: 注册Apple Beta版软件计划后,...

索尼计划2029年末推出PS6游戏机

据外媒 DetectiveSeeds 报道,索尼计划在 2029 年末推出 PS6 游戏机,而相应机型的开发者套件(Dev Kits)最快将在明年开始向游戏厂商发放,这意味着 PS5 的生命周期将持续至 2029 年,PS5 系列游戏...