科技媒体marktechpost报道,Meta公司近日发布全新LlamaRL框架,采用全异步分布式设计,显著提升大语言模型的强化学习效率。测试显示,在4050亿参数模型上,LlamaRL将强化学习步骤时间从635.8秒缩短至59.5秒,速度提升达10.7倍。
强化学习通过反馈优化模型输出,但对资源要求极高。LlamaRL利用PyTorch构建分布式系统,支持模块化定制,通过并行处理生成、训练和奖励模型,减少等待时间。借助分布式直接内存访问(DDMA)和NVIDIA NVLink技术,该框架仅需2秒即可完成4050亿参数模型的权重同步。
在MATH和GSM8K基准测试中,LlamaRL性能稳定且高效,为解决大语言模型训练中的内存和GPU闲置问题提供了可行方案。