科技媒体marktechpost报道,英伟达联合宾夕法尼亚州立大学、华盛顿大学推出Nemotron-Research-Tool-N1系列模型,该模型受DeepSeek-R1启发,采用新型强化学习(RL)范式,显著提升大型语言模型(LLMs)的工具推理能力。
传统方法依赖合成数据,难以捕捉明确的推理步骤,导致模型仅模仿表面模式。Nemotron-Research-Tool-N1通过轻量级监督机制和二元奖励策略,使模型自主优化工具调用的功能正确性。其采用结构化提示模板(如`
测试显示,基于Qwen2.5和LLaMA变体的Nemotron-Research-Tool-N1在BFCL和API-Bank基准上表现优异,准确率超越GPT-4o及专用微调模型。这一成果标志着LLMs从监督微调向强化学习范式的重要转变。