近日,微软研究院与清华大学、北京大学合作开发的奖励推理模型(Reward Reasoning Models,RRMs)正式发布。该模型通过显式推理过程动态分配计算资源,显著改善复杂任务的评估效果。RRMs基于Qwen2模型,采用Transformer-decoder架构,将奖励建模转化为文本补全任务,实现对复杂查询的精细分析。
传统奖励模型在测试时统一分配计算资源,难以满足多样化需求。RRMs引入“思维链”推理机制,根据任务复杂性自适应调整计算资源投入。研究团队利用RewardBench库进行系统评估,结果显示RRM-32B在推理类别中达到98.6%的准确率,远超同类模型。此外,RRMs支持多响应评估,并通过ELO评分和淘汰赛机制优化资源利用率,在后训练反馈和最佳N推理中表现优异。
随着模型规模扩大,RRMs展现出更强的推理能力和更高的准确性,为复杂任务提供了高效解决方案。