谷歌DeepMind推出QuestBench基准,评估AI模型识别信息缺口能力
谷歌DeepMind团队近日推出QuestBench新基准,旨在通过约束满足问题(CSPs)框架,评估大型语言模型(LLMs)在推理任务中识别和获取缺失信息的能力。该研究针对现实场景中信息不完备的挑战,如用户提问遗漏细节或机器人在部分可观测环境中工作,强调模型需主动识别信息缺口并生成针对性澄清问题。QuestBench覆...
谷歌DeepMind团队近日推出QuestBench新基准,旨在通过约束满足问题(CSPs)框架,评估大型语言模型(LLMs)在推理任务中识别和获取缺失信息的能力。该研究针对现实场景中信息不完备的挑战,如用户提问遗漏细节或机器人在部分可观测环境中工作,强调模型需主动识别信息缺口并生成针对性澄清问题。QuestBench覆...
豆包大模型团队正式宣布,首个面向多语言开发环境的代码修复评测基准 Multi-SWE-bench 已开源。该数据集扩展了 SWE-bench 的能力,首次覆盖 Python 之外的 7 种主流编程语言(Java、Go、Rust、C、C++、TypeScript、JavaScript),构建了真实的跨语言代码修复任务。Multi-SWE-bench 包含 1,632 个实例,均来...
Traverse Research推出的革命性GPU基准测试套件Evolve,为图形产业带来了全新的性能评估方式。该套件通过七大核心维度全面衡量GPU表现,涵盖光线追踪效能、加速结构构建速度、光栅化吞吐量等关键指标,同时引入业界首个工作图性能评估维度。Evolve不仅提供了更精准的分析工具,还为快速发展的图形技术设...
市场监管总局今日宣布批准建立端度基准装置,这一装置首次实现了(0.1~1000)毫米一等量块的测量,填补了国内空白。该装置基于国产化移相干涉法量块干涉仪构建,采用633纳米(红光)和543纳米(绿光)双波长光源,通过多波长小数重合法实现纳米级精度测量,其测量不确定度达到国际领先水平。端度是指物体两个面...
据证券日报,梳理发现,多家银行及银行理财子公司对旗下部分理财产品业绩比较基准进行了下调,有部分理财产品业绩比较基准下限跌破2%。上海金融与法律研究院研究员杨海平对记者表示,理财产品业绩比较基准出现下调的原因主要是理财产品的发行机构基于对市场行情演进的判断而做出的调整。
日前,国际标准性能评估组织SPEC公布了AI基准测试SPEC ML最新进展,该基准已完成面向不同AI负载下的软硬件系统的性能、扩展性和模算效率三大关键指标构建。SPEC ML首次将模算效率纳入基准评测,涵盖AI大模型、运行框架和硬件算力平台的一整套软硬件系统。目前,AMD、英特尔、NVIDIA、浪潮信息、NetApp和R...
沉浸式目的地和体验创造者Miral公布了其在整个集团内的全面可持续发展战略,这是Miral持续环境和社会承诺的一个里程碑。 它概述了Miral的雄心壮志,即到2030年成为可持续休闲、娱乐和旅游( LET )体验的区域基准。Miral致力于影响亚斯岛和萨迪亚特岛的当前和即将到来的景点,其对可持续发展的承诺由三个...
阿布扎比沉浸式目的地和体验创造者Miral公布了其全面可持续发展战略,旨在到2030年成为该地区可持续休闲、娱乐和旅游(LET)体验的区域基准。该战略建立在Miral对负责任娱乐的持续承诺基础上,确保采取全面方法保护环境、员工福祉和业务的可持续增长。 该长期战略强调了Miral致力于将其目的地和景点定位...
基准医疗致力于打造国际一流的高通量测序临床应用和研发平台,成为国际领先的精准医疗整体方案提供者。公司核心团队拥有20余年资深业界经验,涉足癌症基因组学、遗传学和生物信息学等领域。康圣环球正在洽谈收购AnchorDx100%股权。
印度将粗棕榈油进口基准价格设定为每吨931美元,将RBD棕榈油的基准进口价格定为每吨933美元,将粗豆油基准进口价格定为每吨992美元。
瑞士央行将基准利率下调25个基点至1.25%,为连续第二次降息,符合市场预期。
在2023年Snapdragon峰会上,UL Solutions面向Windows开发的UL Procyon人工智能(AI)推理基准测试将推出具有人工智能干预性能的Snapdragon X Elite平台。UL Procyon AI推理基准测试比较了来自不同供应商的多个推理引擎,使用常见的机器视觉模型衡量Windows操作系统设备的机器学习推理性能。这些洞见可帮...
基准医疗与帝基生物达成长期合作关系,共同开发癌症筛查产品并全球商业化。双方将利用各自在DNA甲基化和突变检测方面的专有技术,面向全球市场,共同开发分子诊断产品。基准医疗的DNA甲基化检测诊断产品UriFind已获FDA"突破性医疗器械"认定。此次合作将加速基准医疗现有癌症筛查产品的海外商...
据澎湃,当地时间9月11日,推出不到两个月的英伟达GH200 Grace Hopper超级芯片首次亮相MLPerf行业基准测试。在此次测试中,具有更高的内存带宽和更大的内存容量的GH200与H100 GPU相比,性能高出17%。在新闻发布会上,英伟达人工智能总监戴夫·萨尔瓦托(Dave Salvator)表示: "Grace Hopper表现出色,首次提...
随着对AI工具的需求增加,对能够完成更多任务的系统的需求也越来越大。企业可以通过拥有像ChatGPT或Bard这样的聊天界面来受益,这些界面能够对冗长的文件进行摘要或筛选客户数据以获取见解。这是由于模型无法处理较长的上下文长度,导致混淆和产生幻觉。
普瑞基准科技(北京)有限公司是一家基于高通量基因组测序和生物信息大数据分析的创业企业,致力于提供全面、精确、高度定制的个体化医疗解决方案。致力于将突出的生信和生统能力应用于肿瘤的精准医疗,为肿瘤患者提供全面、精准的个体化治疗方案及遗传性风险评估,为肿瘤领域相关研究者提供最先进、最优...
中国移动在2023年Omdia服务供应商数字战略基准中排名第一,该基准对全球12个主要运营商集团的数字战略进行评分。基于SK Telecom致力于将自身重塑为人工智能公司,以及在元宇宙和城市空中交通等新领域拓展服务,其在该基准中排名第二。而NTT Docomo则因其在技术和数字服务方面所具备的优势排名第四。在该...
微软研究人员发布了一个新的基准测试AGIEval,用于评估基础模型在人类认知任务中的表现,包括高考、公务员考试、法学院入学考试、数学竞赛和律师资格考试等。+++实验结果显示,GPT-4在一些任务中的表现超过了人类平均水平,但在需要复杂推理或特定领域知识的任务中不太熟练。评估推理能力可以确保模型在...
5月9日,中文通用大模型综合性评测基准SuperCLUE正式发布。该基准测试主要关注以下问题: 中文大模型在不同任务上的表现如何?与国际代表性模型相比,中文大模型的表现达到了何种程度?中文大模型与人类表现相比如何?该模型可通过多个层面,考研市面上主流的中文GPT大模型的能力: 基础能力: 包括了常见的有...
从"中国信通院CAICT"微信公众号获悉,为进一步推动我国大模型技术创新发展及工程化应用落地,中国信通院现启动大模型技术及应用基准构建工作,针对当前主流数据集和评估基准多以英文为主,缺少中文特点、文化以及难以满足关键行业应用选型需求等问题,联合业界主流创新主体共同构建一套涵盖多任务领域、多...