最新最快科技资讯
太阳能光伏网

OpenAI发布GDPval评估基准 衡量AI真实经济价值表现

OpenAI近日推出名为GDPval的新型AI评估体系,旨在衡量前沿模型在真实经济任务中的实际表现,弥补学术测试与现实应用间的鸿沟。该基准覆盖美国九大高贡献行业中的44个职业,涵盖1320项由资深专业人士设计的具体任务,并要求模型输出文件、幻灯片等多模态成果,提升评测真实性。首轮测试显示,Claude Opus 4.1综合表现最佳,GPT-5在专业准确性上领先。研究还发现,前沿模型完成任务速度较人类快约100倍,成本仅为百分之一。但OpenAI指出,当前版本尚未涵盖需反复迭代或高度交互的复杂场景,未来将扩展覆盖范围并开放部分数据集。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新相关

宝马第五代X5取消"天地门"尾门设计

2026年7月3日,宝马在南卡罗来纳州斯帕坦堡发布第五代X5,宣布取消自1999年沿用至今的上下分体式尾门(俗称"天地门")。官方解释称,该设计虽具辨识度和实用性,但普通用户装卸行李时存在够取不便问...

微软曝光AI原生系统Project Aion演示

2026年7月2日,科技媒体Windows Latest发布视频,展示微软内部代号为Project Aion的AI原生操作系统。该系统基于Edge浏览器与轻量化Windows Web3代码库构建,无传统桌面与开始菜单,全程依赖AI交互...

扎克伯格称Meta超级智能进展未达预期

7月2日,Meta CEO扎克伯格在内部全员会上坦言,公司正推进'超级智能'研发,但AI智能体技术进展低于预期。据悉,Meta已投入数百亿美元建设AI基础设施并扩招人才,却面临研发速度、员工士气与组织信...

iFixit发布iPhone电池生产全流程视频

2026年7月3日,国外维修团队iFixit发布视频,详解iPhone电池生产流程。主播Shahram Mokhtari赴中国某大型电池工厂实地拍摄,涵盖BMS编程、电芯连接、电路板折叠固定、质检及胶条贴附等关键工序。...

GitHub推出限量版代码CD-ROM刻录服务

2026年7月3日,GitHub宣布上线公开仓库CD-ROM实体光盘刻录服务。该服务面向全球用户开放预登记,但属限量供应,不保证成功订购,配送周期预计数周。此举以幽默口吻回应开发者对"数字永生"的调侃,...