最新最快科技资讯
太阳能光伏网

OpenAI新模型幻觉问题加剧,准确性面临挑战

OpenAI近期发布的o3和o4-mini模型在编程与数学等领域表现突出,但其“幻觉”问题却显著恶化。据外媒TechCrunch报道,这两款推理模型的幻觉频率不仅超过前代o1、o1-mini和o3-mini,甚至高于传统非推理模型。内部测试显示,o3在PersonQA基准测试中的幻觉率高达33%,而o4-mini更达48%。相比之下,前代模型o1和o3-mini的幻觉率分别为16%和14.8%。

这一反常现象表明,随着模型规模扩大,幻觉问题反而更加严重。Transluce实验室的测试发现,o3曾虚构出在MacBook Pro上运行代码的操作,尽管其并无此能力。OpenAI发言人Niko Felix承认,解决幻觉问题是当前研究的重点,公司正努力提升模型的准确性和可靠性。然而,这一挑战仍需进一步探索与突破。

最新相关

本田计划2027年后推出13款混合动力车型

5月20日,本田CEO宣布,公司将在2027年后推出13款全新混合动力车型。此举旨在构建更广泛的混动车型阵容,满足全球市场对混合动力汽车日益增长的需求。本田希望通过这一战略巩固其在环保汽车领域...

江西45地531个气象站降雨量超100毫米

5月15日至19日,江西多地出现强降水天气。据统计,66县(市、区)1224个气象观测站降雨量超过50毫米,其中45县(市、区)531个气象观测站降雨量超过100毫米,江西省已进入多雨期。免责声明: 本文内容...

三星电子将为任天堂生产Switch 2主芯片

三星电子获任天堂委托,将生产Switch 2游戏机主芯片。此举有助于任天堂提升产量,预计到2026年3月销量达2000万台。此合作标志着三星在芯片制造领域与台积电竞争中的重要进展,可能提高其代工厂业...

从黄金到铜: 神秘交易员边锡明再创14亿浮盈

2025年春天,中国神秘操盘手边锡明在黄金市场赚下15亿美元后,将资金转向铜市。通过上期所铜期货主力合约,他建立高达10亿美元多头头寸,目前浮盈超2亿美元。边锡明基于全球宏观格局和商品周期,认...

泰国今年外国游客人数同比下降1.75%

今年1月1日至5月18日,泰国接待约1340万外国游客,较上年同期下降1.75%。中国是最大客源市场,游客达183万人次。泰国国家经济和社会发展委员会将今年游客预测从3800万下调至3700万,仍低于2019年...

粤港澳大湾区计量发展合作平台正式启动

5月20日,市场监管总局在广州举办活动上宣布,粤港澳大湾区计量发展合作平台正式启动。该平台由内地与港澳官方计量机构共同发起,是首个以计量为主题的湾区协同创新载体。平台将聚焦前沿科技与产...

研究发现: AI生成不准确内容与失语症相似

5月20日,日本研究人员在德国《先进科学》杂志发表研究成果,指出人工智能生成内容虽然流畅,但常包含不准确信息,这一问题与人类失语症类似。研究认为,该发现可为改进AI提供参考。随着智能体和聊...

国轩高科: 主要产品需求旺盛产能持续增长

5月20日,国轩高科在互动平台表示,公司主要产品市场需求旺盛,排产持续增加。随着第三代电芯的爬坡达产,产能利用率有望进一步提升,推动业务发展。免责声明: 本文内容由开放的智能模型自动生成,...

韩国去年下半年虚拟资产总市值增长91%

2024年下半年,韩国虚拟资产总市值达107.7万亿韩元(约776亿美元),较上半年增长91%。交易者韩元存款总额增加114%,达10.7万亿韩元,市场营业利润增长28%至7420亿韩元。期间,日均交易额为7.3万亿韩...