最新最快科技资讯
太阳能光伏网

微软联合清华北大推出奖励推理模型RRMs,提升复杂任务评估效果

近日,微软研究院与清华大学、北京大学合作开发的奖励推理模型(Reward Reasoning Models,RRMs)正式发布。该模型通过显式推理过程动态分配计算资源,显著改善复杂任务的评估效果。RRMs基于Qwen2模型,采用Transformer-decoder架构,将奖励建模转化为文本补全任务,实现对复杂查询的精细分析。

传统奖励模型在测试时统一分配计算资源,难以满足多样化需求。RRMs引入“思维链”推理机制,根据任务复杂性自适应调整计算资源投入。研究团队利用RewardBench库进行系统评估,结果显示RRM-32B在推理类别中达到98.6%的准确率,远超同类模型。此外,RRMs支持多响应评估,并通过ELO评分和淘汰赛机制优化资源利用率,在后训练反馈和最佳N推理中表现优异。

随着模型规模扩大,RRMs展现出更强的推理能力和更高的准确性,为复杂任务提供了高效解决方案。

最新相关

罗马仕突发停工停产,员工工资按最低标准发放

据界面新闻报道,罗马仕近日凌晨发布通知称,受市场环境变化及业务调整影响,公司决定自2025年7月7日起停工停产6个月。部分员工已被召回,其余人员进入停工状态。通知显示,停工首月公司将按原标准...

英伟达携RTX5080/5070显卡亮相Bilibili World 2025

英伟达昨日宣布,将于7月11日至13日登陆Bilibili World 2025,并开放RTX5080/5070公版显卡的现场售卖。自7月5日起,用户可通过B站App预约购买资格。活动期间,英伟达还将举办多场游戏试玩会,包括...

美团即时零售日订单突破 1 亿

美团面向核心本地商业内部员工推送的一则战报显示,截至 5 日 20 时 45 分,美团即时零售日订单量已经突破 1 亿单。在不少社交平台,也有不少美团员工在转发相关海报。2024 年 8 月 7 日,美团在"...

谷歌调整搜索策略应对欧盟新规

为遵守欧盟《数字市场法》并避免高额罚款,谷歌计划在搜索页面顶部优先展示来自第三方比价平台的购物和旅游内容。据彭博社报道,知情人士透露,谷歌将在搜索结果上方设置专门展示框,列出如Expedi...