最新最快科技资讯
太阳能光伏网

中国信通院发起大模型幻觉测试,助力AI安全应用

为应对大模型幻觉带来的潜在风险,中国信息通信研究院人工智能所基于AI Safety Benchmark测评工作,正式开展大模型幻觉测试。大模型幻觉指生成内容看似合理但与事实或用户输入不符的现象,尤其在医疗、金融等领域广泛应用时,其风险不容忽视。

本次测试聚焦大语言模型,涵盖事实性幻觉和忠实性幻觉两种类型,采用7000余条中文样本,涉及人文、社会、自然、应用及形式科学五大维度。测试形式包括信息抽取、知识推理和事实判别等题型,旨在全面评估模型表现。

中国信通院诚邀相关企业参与测评,共同推动大模型的安全与深度应用。

最新相关

小米汽车公布辅助驾驶新专利

9月9日,小米汽车科技有限公司公开一项"车辆控制方法、装置、设备、存储介质及程序产品"专利,适用于辅助驾驶领域。该技术通过感知数据识别天气场景,并自动调整车辆工作状态,提升车辆对天气的自...

字节跳动发布Seedream 4.0图像创作模型

9月9日,字节跳动Seed团队发布新一代图像创作模型Seedream 4.0。该模型采用统一架构实现文生图与通用编辑功能,并融合常识和推理能力。相比前代模型Seedream 3.0和SeedEdit 3.0,新版本在多模态...

京东工业"链动众城"计划落地辽宁

9月9日,京东工业在辽宁沈阳举行的"制造业数字化转型对接交流活动"暨"京东工业链动众城 万亿降本数智供应链峰会"上发布辽宁发展规划。京东工业宣布将落地"链动众城 万亿降本"计划,全面向辽宁工...

遥望科技在武汉投资成立新公司

9月9日,据天眼查资料显示,武汉遥辉数动科技有限公司近日成立,法定代表人为王松。公司经营范围涵盖互联网信息服务、互联网游戏服务、虚拟现实设备制造及数字文化创意软件开发等领域。新公司由...

OpenAI收购AI编程助手公司Alex Codes

近日,OpenAI宣布收购AI编程助手提供商Alex Codes。该公司主要为Xcode开发AI插件,帮助iOS与macOS开发者提升编码效率。其核心产品可集成于Xcode侧边栏,支持代码自动补全、错误修复、图片转代码...

领克助力卫星发射 一月实现两连发

2025年9月9日3时48分,带有"LYNK & CO领克"涂装的捷龙三号运载火箭成功将吉利星座第5轨卫星送入预定轨道,实现"一箭11星"。此次发射标志着继8月9日发射第4轨卫星后,领克一月内实现两次发射任务...

工信部推进蜂窝车联网部署

2025年9月9日,工信部副部长张云明在国新办新闻发布会上表示,将推进蜂窝车联网部署,加快新型工业网络建设。工信部计划优化算力设施布局,提升网络覆盖水平,并加快构建现代化信息基础设施体系,以...

我国成功发射遥感四十五号卫星

2025年9月9日,我国在文昌航天发射场使用长征七号改运载火箭,成功将遥感四十五号卫星发射升空。卫星顺利进入预定轨道,发射任务圆满成功。该卫星主要用于科学试验、国土资源普查、农产品估产和...