最新最快科技资讯

太阳能光伏网

大模型幻觉成应用落地难题最新评测文心一言解决幻觉能力最好

16 11月 2023

2023-11-16 14:14

“林黛玉倒拔垂杨柳”、“月球上面有桂树”、“宋江字武松”……相信经常使用大语言模型都会遇到这样“一本正经胡说八道”的情况。这其实是大模型的“幻觉”问题，是大模型行业落地的核心挑战之一。例如幻觉会影响生成内容的可靠性，对于法律、金融、医疗等专业要求高的领域，将难以完成实际场景任务。因此，大模型幻觉问题也被认为是制约大模型广泛应用的一大难题。

如何准确评估和解决大语言模型中的幻觉问题已经成为一个至关重要的挑战。近日，复旦大学与上海人工智能实验室构建了针对中文大模型的幻觉评测数据集HalluQA，对业界主流的大模型进行了评估。

HalluQA采用无幻觉率来评估大模型的优劣。无幻觉率越高代表模型幻觉越低，事实准确性越高。在评测的24个主流大模型中，包括百度文心一言ERNIE-Bot、百川Baichuan、智谱ChatGLM、阿里通义千问和GPT-4等。

中文大模型幻觉评测数据集HalluQA对24个主流大模型进行评测

从评测结果来看，幻觉问题对大模型来说尚有困难，有18个模型的无幻觉率低于50%。在幻觉消除上，具备检索增强能力的大模型优势明显，在所有模型评测中，文心一言在整体幻觉问题解决方面表现突出，排名第一，整体无幻觉率为69.33%。而GPT-4整体无幻觉率为53.11%，排名第六。

HalluQA：不同类型模型在不同类型的问题上的平均非幻觉率

行业普遍认为，幻觉问题对于大模型在多个领域的落地都可能产生严重影响，包括客户服务、金融服务、法律决策和医疗诊断等。因此解决幻觉问题越好的大模型，才具备更强的产业落地价值。

最新相关

03 07月 2025

华为擎云 L420x来了!自主创新笔记本让政企用户效率再提升

华为擎云 L420x作为新一代高性能旗舰商务笔记本,专为政企用户打造。软硬件协同、全金属轻薄机身、超高清护眼屏,再加上Wi-Fi无线性能五星认证等多重优势,让高效便携、全能生产力成为了它的代名...

03 07月 2025

智谱AI旗下上海公司注册资本暴增4900%至5亿元加速人工智能领域布局

近日,上海智谱寰宇科技有限公司发生工商变更,注册资本由1000万元人民币大幅增至5亿元人民币,增幅高达4900%。同时,刘德兵由执行董事改任董事。据悉,该公司成立于2024年5月,法定代表人为刘德兵,...

25 06月 2025

福田发布19款AI硬核产品,达成千万级订单,成果亮眼!

2025年6月24日,由深圳市人工智能产业办指导,福田区政务服务和数据管理局、福田区科技和工业信息化局、福田区人工智能产业办主办的第三期模力福地产品发布会暨金砖人工智能研究组大模型、产业...

12 06月 2025

XREAL携手谷歌、高通亮相AWE,Project Aura重要参数首次公布,企业级XR战略正式启航

6月11日,美国加利福尼亚州长滩――在全球最具影响力的增强现实产业大会 AWE(Augmented World Expo)上,全球领先AR企业 XREAL 携手谷歌、高通重磅亮相,并正式公布全新旗舰AR眼镜 Project Aura ...

秘塔AI x 优刻得,让搜索回归本质

11 06月 2025

秘塔AI x 优刻得,让搜索回归本质

成长在互联网刚刚兴起的年代,我们的小时候,"微机课"比体育课还要令人期待。课间早早计划好玩哪个Flash小游戏,奔向"微机房"要给好朋友占个座,按下台式机的电源键,等待Windows系统缓缓加载……...

10 06月 2025

安卓16正式版即将发布采用新Material3 Expressive设计语言

[太平洋科技快讯]6月10日,安卓开发者官方账号宣布,安卓16最终发布版本将于明天正式推出。按照惯例,新系统将率先在谷歌自家的Pixel设备上推送,随后各大安卓手机厂商预计也将陆续跟进,为用户提...

10 06月 2025

曝华为Pura80系列搭载行业首创双镜长焦支持可调节风格化拍摄

[太平洋科技快讯]6月10日,据相关曝料透露,华为Pura 80系列将搭载行业首个双镜长焦系统,意味着用户可以在一个长焦模块内切换两种不同的焦段(据传为89mm和240mm)。此外,AI摄影构图辅助以及可调...

10 06月 2025

曝富士X-E5单机身定价1699美元搭载40MP APS-C传感器

[太平洋科技快讯]6月10日,富士将在6月12日于上海举行的X-Summit发布会上推出的新款X-E5相机。据相关曝料透露,X-E5相机机身单独定价为1699美元(约合人民币: 12208元),而搭配23mm F2.8镜头的套...

10 06月 2025

松下S1M2/S1M2E相机国行版开启预售售价17498元起

[太平洋科技快讯]6月10日,松下影像宣布,旗下两款全画幅微单相机——LUMIX S1M2(图左)和LUMIX S1M2E(图右),已在中国内地市场开启预售,售价17498元起。松下将LUMIX S1M2定位为专业摄...

10 06月 2025

鸿蒙智行尚界首车谍照曝光整体风格类似飞凡RC7

[太平洋科技快讯]近日,相关消息曝光了华为与上汽合作打造的鸿蒙智行第五界“尚界”的首款车型谍照。据悉,这款新车预计将于今年年中正式亮相,并很可能搭载增程式动力系统。从曝光的...

10 06月 2025

英伟达或推12GB版本RTX5060显卡以提供更平衡的显存配置

[太平洋科技快讯]近日,继曝光RTX 5090公版设计细节后,又有消息指出,英伟达入门级产品RTX 5060可能将推出12GB显存容量的版本,旨在为甜点级市场带来更平衡的配置选择。目前,英伟达在RTX 50系列...

10 06月 2025

iPadOS26发布多任务处理向macOS看齐

[太平洋科技快讯]6月10日,在 WWDC25 开发者大会上,苹果正式发布了全新的 iPadOS 26 系统。此次更新不仅带来了全新的设计语言,更在多任务处理和文件管理方面进行了“史诗级”的革新,...

10 06月 2025

macOS 26 Tahoe发布 Spotlight聚焦升级

[太平洋科技快讯]6月10日,苹果在WWDC25全球开发者大会上正式推出了全新操作系统macOS 26 Tahoe。最引人注目的变化莫过于其全新的系统设计语言。苹果引入了名为“液体玻璃”的半透明...

10 06月 2025

苹果智能将在年内支持繁体中文中国内地AI服务上线时间仍待定

[太平洋科技快讯]6月10日,苹果在WWDC 2025开发者大会上透露,Apple智能服务将于今年内正式加入繁体中文语言支持,旨在更好地服务中国香港、中国澳门以及中国台湾等地区的用户,让他们能够以更熟...

10 06月 2025

iOS26正式发布采用全新液态玻璃设计语言

[太平洋科技快讯]6月10日,苹果在 WWDC25 上宣布迄今规模最大的设计更新,命名为“Liquid Glass(液态玻璃)”,且将所有系统统一为年份命名,因为该系统将应用到明年,因此尾缀为26。iOS ...

09 06月 2025

vivo X Fold5搭载第二代半固态电池 -30°C也能正常供电

[太平洋科技快讯]vivo产品经理韩伯啸近期持续为本月底发布的vivo X Fold5折叠屏手机预热。他表示vivo X Fold5将搭载第二代半固态电池技术,在-30℃的极端低温下也能正常供电。韩伯啸称,vivo X ...

阅读更多

深度实测: 邦彦云PC运行SolidWorks复杂大模型究竟体验如何?

深度实测: 邦彦云PC运行SolidWorks复杂大模型究竟体验如何?

优必选在杭州成立智行机器人公司注册资本5000万

优必选在杭州成立智行机器人公司注册资本5000万

中石油昆仑资本入股山东未来机器人公司

中石油昆仑资本入股山东未来机器人公司

暑期研学游升温全国现存研学相关企业超3万家

暑期研学游升温全国现存研学相关企业超3万家

荣耀 Magic V5 折叠屏旗舰手机发布,8999 元起

荣耀 Magic V5 折叠屏旗舰手机发布,8999 元起

黑救护车涉事公司已经营异常

黑救护车涉事公司已经营异常

麦琳发布模仿视频当天涨粉2万

麦琳发布模仿视频当天涨粉2万

柴怼怼关联多家企业被吊销或注销

柴怼怼关联多家企业被吊销或注销

7月起医保购药须扫追溯码全国现存药品零售企业超111万家

7月起医保购药须扫追溯码全国现存药品零售企业超111万家

庄园芳任兴全基金董事长

庄园芳任兴全基金董事长

赚多啦平台信用模型获认可,成功入围品牌强国重点工程

赚多啦平台信用模型获认可,成功入围品牌强国重点工程

ChatGPT的移动端APP日活用户DAU已经超过Twitter

ChatGPT的移动端APP日活用户DAU已经超过Twitter