最新最快科技资讯
太阳能光伏网

OpenAI新模型幻觉问题加剧,准确性面临挑战

OpenAI近期发布的o3和o4-mini模型在编程与数学等领域表现突出,但其“幻觉”问题却显著恶化。据外媒TechCrunch报道,这两款推理模型的幻觉频率不仅超过前代o1、o1-mini和o3-mini,甚至高于传统非推理模型。内部测试显示,o3在PersonQA基准测试中的幻觉率高达33%,而o4-mini更达48%。相比之下,前代模型o1和o3-mini的幻觉率分别为16%和14.8%。

这一反常现象表明,随着模型规模扩大,幻觉问题反而更加严重。Transluce实验室的测试发现,o3曾虚构出在MacBook Pro上运行代码的操作,尽管其并无此能力。OpenAI发言人Niko Felix承认,解决幻觉问题是当前研究的重点,公司正努力提升模型的准确性和可靠性。然而,这一挑战仍需进一步探索与突破。

最新相关

谷歌收紧远程办公政策

2025年10月10日,谷歌宣布调整其"随时随地工作"(WHA)政策,限制员工远程办公的灵活性。此次调整涉及全球范围内的员工,旨在推动更多人回归办公室。根据更新后的政策,员工每年只能在办公室以外的...

《海南自由贸易港旅游条例》12月施行

《海南自由贸易港旅游条例》于2025年9月30日经海南省七届人大常委会第二十次会议通过,将于2025年12月1日起施行。该《条例》专设"旅游开放与国际化"章节,聚焦国际旅游消费中心建设目标,在旅游...

朝阳区数字影棚项目正式开工

2025年10月10日,朝阳区平房地区集体产业项目暨机场二高速南侧产业项目(一期)正式开工。该项目位于北京市朝阳区平房地区,由阿里集团参与建设,将打造一座行业领先的数字影棚,成为北京城区高端影...

上海徐汇知春创新中心正式开业

10月9日上午,上海徐汇知春创新中心正式开业。活动在上海市徐汇区举行,由字节跳动创始人张一鸣与上海交通大学ACM班创始人俞勇教授共同发起。14名预备研究员及其家长出席仪式,上海徐汇区区长王...

宁德时代智能完成首轮融资估值破百亿

2025年10月10日,宁德时代旗下子公司CATL时代智能完成首次对外融资,融资额超20亿元,估值逾百亿。本轮融资由博裕投资、国泰君安、北汽产投、上海科创、孚腾资本等共同参与,资金将用于磐石底盘车...

马斯克与4名前推特高管达成9亿元和解

2025年10月10日,埃隆·马斯克及其旗下平台X(原推特)与4名前高管就遣散费纠纷达成和解,总额约1.28亿美元(约合人民币9亿元)。此次诉讼起因于2022年马斯克收购推特后大规模裁员,并被指未支付承诺...

菜鸟携手中兴建智能工厂获国家最高认证

2025年10月10日,菜鸟与中兴通讯联手打造的长沙超级智能工厂正式通过国家智能制造成熟度四级认证,达到当前最高等级。该工厂由长沙中兴智能技术有限公司与菜鸟联合建设,位于湖南长沙,旨在提升智...

小红书上线"为ta加热"新功能

2025年10月10日,小红书宣布推出薯条推广新功能"为ta加热"。该功能将于10月11日双11期间全量上线,支持所有用户为喜爱的笔记内容代投流量,无需博主授权。个人用户可针对笔记的阅读量、点赞收藏...

睡力矩阵获天使轮融资 聚焦智能睡眠家具赛道

智能睡眠家具品牌睡力矩阵近日完成天使轮融资,投资方为追创创投。此次融资将主要用于产品研发、供应链优化及市场推广,进一步巩固其在智能睡眠领域的布局。睡力矩阵专注于通过科技手段提升用户...

本来生活发布2025中秋企业消费报告

10月10日,本来生活集团发布2025年中秋企业消费报告。数据显示,今年中秋期间企业福利及营销礼订单销售额同比增长超30%,消费履约高峰更为集中。报告指出,"健康""体验"与"文化审美"成为企业采购...

越秀集团完成收购香港人寿全部股份

2025年10月9日,广州越秀集团股份有限公司正式完成对香港人寿保险有限公司全部股份的收购。本次交易由海通国际证券有限公司担任买方财务顾问,并已获得香港保险业监管局批准,标志着越秀集团在保...