英伟达近日发布全新推理模型套件OpenReasoning-Nemotron,包含1.5B至32B四种参数规模的模型,均基于Qwen-2.5微调并源自6710亿参数的DeepSeek R1 0528大模型。通过“蒸馏”技术,英伟达将超大规模模型压缩为轻量化版本,使标准游戏电脑也能运行高级推理任务,显著降低GPU与云计算成本。
该套件的核心优势在于数据支撑——英伟达利用NeMo Skills生成500万个涵盖数学、科学与编程的解答数据集,通过纯监督学习微调模型。测试显示,32B模型在AIME24数学竞赛中获得89.2分,1.5B模型也展现出可观性能。
OpenReasoning-Nemotron支持Hugging Face下载及“GenSelect模式”,可生成多版本解答并筛选最优解。32B模型在多项测试中已媲美OpenAI o3-high。英伟达强调,此次训练仅采用监督微调,为后续强化学习研究提供干净起点,同时让高性能游戏GPU用户实现本地前沿推理实验。