最新最快科技资讯
太阳能光伏网

Meta推出LlamaRL框架,强化学习效率提升10倍

科技媒体marktechpost报道,Meta公司近日发布全新LlamaRL框架,采用全异步分布式设计,显著提升大语言模型的强化学习效率。测试显示,在4050亿参数模型上,LlamaRL将强化学习步骤时间从635.8秒缩短至59.5秒,速度提升达10.7倍。

强化学习通过反馈优化模型输出,但对资源要求极高。LlamaRL利用PyTorch构建分布式系统,支持模块化定制,通过并行处理生成、训练和奖励模型,减少等待时间。借助分布式直接内存访问(DDMA)和NVIDIA NVLink技术,该框架仅需2秒即可完成4050亿参数模型的权重同步。

在MATH和GSM8K基准测试中,LlamaRL性能稳定且高效,为解决大语言模型训练中的内存和GPU闲置问题提供了可行方案。

最新相关

国内商品期货夜盘收盘纯碱跌超2%

6月12日电 ,国内商品期货夜盘收盘,市场呈现跌多涨少态势。其中,纯碱跌幅超过2%,玻璃、焦炭等品种跌超1%。与此同时,棕榈油和豆油等小幅上涨,显示部分品种仍具韧性。免责声明: 本文内容由开放的...

广西提升重大气象灾害(台风)应急响应至Ⅲ级

6月12日,受台风"蝴蝶"影响,广西壮族自治区气象局将重大气象灾害(台风)应急响应提升至Ⅲ级。北部湾海面及桂东沿海地区将出现暴雨到大暴雨,局地特大暴雨。广西气象台于17时升级台风预警,强化防...

丰田bZ5上市: 中型SUV市场的新搅局者

一汽丰田bZ5以12.98万元起售价正式登场,顶配车型搭载激光雷达也仅售15.98万元。作为一款中型SUV,这一价格直接向新势力品牌发起挑战。虽然续航和动力参数平平,但其智能驾驶辅助系统成为亮点,采...

云知声通过港交所上市聆讯

6月12日,云知声智能科技股份有限公司正式通过港交所上市聆讯。联席保荐人为中金公司与海通国际。此次聆讯通过标志着云知声向公开募股迈出重要一步,未来有望在资本市场进一步扩大影响力。免责...