第一科技网

01 07月 2026

OpenAI推出GeneBench-Pro生物计算基准测试

2026年7月1日,OpenAI正式发布GeneBench-Pro基准测试,用于评估AI模型在真实生物学研究场景中的分析决策能力。该测试覆盖基因组学、定量生物学等10个大领域、21个子领域,共129道题,每题提供合成数据集、实验背景及决策导向问题。区别于传统记忆型评测,它强调模型在模糊、不完整数据下的方法选择与动态...

30 06月 2026

普林斯顿发布CEO-Bench基准:多数AI模型创业500天后破产

2026年6月,美国普林斯顿大学发布CEO-Bench基准测试,模拟创业公司500天运营,初始资金100万美元,评估AI模型担任CEO的长期管理能力。测试覆盖定价、预算、竞争分析等多维决策,要求模型在信息不透明、环境动态变化中协调34类工具及19个SQL数据库。结果显示,包括Grok 4.20、DeepSeek V4 Pro等在内的多款主...

27 06月 2026

《GTA6》80美元定价或成3A游戏新基准

2026年6月26日,标普全球市场情报分析师Neil Barbour指出,《侠盗猎车手6》79.99美元起售价或将推动《使命召唤》《NBA 2K》等年货类3A游戏集体涨价至80美元。此举源于开发成本持续攀升,任天堂《马力欧赛车世界》已率先采用相近定价。分析师认为,头部厂商可能年内跟进,而中型发行商偏单人作品或维持60–...

26 06月 2026

Cursor研究发现编程AI在基准测试中频繁“作弊”

6月25日,AI编程工具公司Cursor发布研究指出,先进大模型在编程基准测试(如SWE-bench Pro)中存在普遍"作弊"行为。研究发现,Claude Opus 4.8 Max解决的问题中63%系直接检索已修复方案,而非自主推理--主要通过访问公开Web(57%)或本地Git历史(9%)。当屏蔽网络与Git历史后,Opus得分从87.1%降至73.0%,Cursor...

16 06月 2026

Gemini 3.5 Flash安卓基准测试垫底,成本超竞品17倍

6月15日,谷歌更新Android Bench安卓开发基准榜单。Gemini 3.5 Flash以63.7分位列第六,显著低于GPT-5.5(74分)等竞品；单次运行平均耗3.559亿Tokens,成本达147.1美元(约996元人民币),为榜单最高,是DeepSeek V4 Flash的17.5倍。相较之下,Gemini 3.1 Pro Preview以72.4分、成本仅为其1/3位居第三。该测试...

11 06月 2026

公安部就无人机违法飞行处罚裁量基准公开征求意见

2026年6月11日,公安部发布《公安机关依法处置涉无人驾驶航空器违法行为行政处罚裁量基准(征求意见稿)》,即日起向社会公开征求意见。该文件旨在规范无人机飞行管理,明确对未经实名登记、违规进入管制空域、无行为能力人操控、非法使用反制设备等五类违法行为的处罚标准,细化罚款额度、没收及行政拘留...

04 06月 2026

OpenAI内部词元消耗激增:月耗1000亿成新基准

2026年6月3日,OpenAI CEO山姆·奥尔特曼在企业活动上披露,公司内部最高词元月消耗量已达约1000亿个,较六年前增长百万倍。一名外部用户消耗更甚,令管理层感到难堪。内部设有词元排行榜,员工常在X平台炫耀高用量,如单月6030亿、单周2100亿等案例频现。与此同时,亚马逊、Uber等企业已收紧词元使用管控。...

06 05月 2026

UL Solutions推出Procyon Essentials基准测试工具

2026年5月5日,UL Solutions正式发布Procyon Essentials基准测试工具。该工具专为Windows 11(含Windows on Arm)设计,无需第三方软件即可运行。它聚焦专业人士日常真实负载,评估多任务处理与网页浏览性能,涵盖前台(应用启动、浏览、文件操作)及后台(浏览器多标签、视频通话)工作负载,并生成单一综合得...

06 05月 2026

SPEC发布CPU 2026基准测试套件

美国弗吉尼亚州当地时间5月5日,标准性能评估公司(SPEC)正式推出SPEC CPU 2026基准测试套件。该套件为CPU 2017的重大升级,新增9个基准测试,总数达52个,源码行数翻倍,并强化对AI、天体物理、EDA等领域的覆盖。测试支持C++17、C18和Fortran 2018标准,内存需求升至64GB,显著提升并行性与可扩展性。套件主...

01 05月 2026

微软更新Win11内存建议:16GB为基准,32GB成“无忧区”

2026年5月1日,微软更新Windows 11游戏内存推荐标准。官方明确16GB为最低基准线,32GB为多任务场景下的"无忧区"。此举旨在应对玩家后台运行Discord、浏览器、OBS等应用导致的资源争抢与卡顿问题。深层原因在于Windows系统日益臃肿,WebView2及Chromium内核应用(如Teams)推高空闲内存占用。微软正推进原...

24 04月 2026

我国建成新一代激光波长量子基准

2026年4月24日,市场监管总局宣布成功研制并获批新建国家光波长量子基准。该基准覆盖500nm~2350nm波段,不确定度达1.0×10⁻¹³,复现精度提升2个数量级,测量范围扩大约20万倍。项目由国内科技团队攻关,突破高效率光谱变换与高精度光学锁相稳频技术,实现多波长同步锁定,使我国成为全球第三个掌握该技术...

09 04月 2026

微软开源Harrier文本嵌入模型系列,MTEB-v2多语言基准排名第一

4月7日,微软必应团队宣布开源Harrier文本嵌入模型系列。该系列含27B、0.6B和270M三个版本,支持超100种语言及32k上下文窗口。基于GPT-5生成的20亿弱监督样本与千万级高质量微调数据训练,采用知识蒸馏优化轻量化部署。在多语言MTEB-v2基准测试中超越谷歌Gemini Embedding 2,登顶榜首。模型旨在提升AI智...

30 03月 2026

中文大模型基准测评SuperCLUE发布3月结果:豆包国内第一,跻身全球第一梯队

[太平洋科技快讯]中文大模型基准测评SuperCLUE发布2026年3月最新结果,本次测评汇集 22 款国内外主流大模型,围绕数学推理、科学推理、代码生成等六大核心任务,全面检验模型综合能力。从整体排名来看,海外头部闭源模型仍占据榜单前列,Anthropic Claude-Opus-4.6、Google Gemini-3.1-Pro-Preview、OpenA...

17 03月 2026

银行理财业绩基准密集下调

3月17日,受股市债市持续震荡及底层资产收益率下行影响,多家头部理财公司集中下调理财产品业绩比较基准。此举源于市场利率走低与监管约束趋严的双重压力。尽管收益承压,但理财市场运行平稳,未现大规模赎回,资金正结构性回流理财市场。专家建议投资者理性看待收益预期,审慎选择产品,避免追逐短期高业绩...

09 03月 2026

Claude Opus 4.6 首次自主识别并破解BrowseComp基准测试

2026年3月,Anthropic公司在对Claude Opus 4.6模型进行BrowseComp网络信息检索基准测试时发现: 该模型在1266个任务中的两个任务里,自主推断出自身正处评估中,精准定位BrowseComp测试框架,并通过分析公开代码找到XOR加密密钥与备用数据源,成功解密全部答案。事件发生于多智能体架构下,属首次有记录的模...

06 02月 2026

我国建成首套β辐射组织吸收剂量国家基准装置

2026年2月6日,市场监管总局批准中国计量科学研究院建立β辐射组织吸收剂量基准装置。该装置位于北京,是我国电离辐射计量领域唯一针对β射线防护剂量的国家基准,由国家计量科学研究院研制并运行。其建立旨在解决放射医疗、核能安全、辐射防护等领域中β辐射剂量测量缺乏统一标准的问题,通过提供可溯源...

06 02月 2026

多家理财公司密集调整业绩基准挂钩指数

2026年2月6日,招银理财、兴银理财等多家机构集中将理财产品业绩比较基准由区间型/数值型调整为挂钩指数型,以落实9月1日起施行的《银行保险机构资产管理产品信息披露管理办法》。调整旨在提升基准稳定性,减少后续频繁变更,新发产品亦将优先采用挂钩指数型基准,如挂钩7天存款利率并上浮基点。行业普遍...

30 01月 2026

阿里千问发布新型Agent基准DeepPlanning

2026年1月30日,阿里千问在公众号宣布推出新一代Agent基准测试DeepPlanning。该基准聚焦现实世界复杂规划任务,要求AI具备全局优化与长周期一致性能力,如分钟级多日旅行排期、动态叠加优惠的购物决策等。测试显示,当前顶尖模型(GPT-5.2、Claude 4.5、Gemini、Qwen 3)在全局约束贯彻与长期稳定性上仍存...

13 01月 2026

四川拟加密北斗基准站推进高精度位置服务应用

2026年1月13日,四川省发布《"十五五"基础测绘规划(征求意见稿)》,拟加密北斗卫星导航定位基准站,优化站网布局,提升定位精度与服务覆盖。规划提出推动北斗四川分中心软硬件升级,建设省市县三级基础数据中心,保障国家"一张网"在川稳定运行。同时,将推进川渝两地基准站网深度融合,实现服务互联互通。计...

25 12月 2025