最新最快科技资讯
太阳能光伏网

Meta AI与加州大学伯克利分校合作推出SWEET-RL强化学习框架

Meta AI与加州大学伯克利分校近日联合推出了一款名为SWEET-RL的强化学习框架,并发布了CollaborativeAgentBench(ColBench)基准测试。这一创新旨在提升大语言模型(LLMs)在多轮人机协作任务中的表现,特别是在后端编程和前端设计领域。

SWEET-RL通过逐轮优化决策,显著提高了模型的任务完成率。其采用非对称的“演员-评论家”结构,评论家可访问额外信息以精确评估演员决策,从而简化信用分配过程。实验结果显示,SWEET-RL在后端编程任务中通过率提升至48.0%,前端设计任务的余弦相似度达到76.9%。

ColBench基准测试包含超过10000个训练任务和1000个测试案例,模拟真实的人机协作场景,为多轮任务提供了可靠的评估标准。

最新相关

山西大同市云州区发生3.8级地震

8月16日16时46分,山西大同市云州区发生3.8级地震,震源深度11千米。此次地震位于北纬39.94度、东经113.48度,暂未报告人员伤亡或财产损失情况。免责声明: 本文内容由开放的智能模型自动生成,仅...

湖北发布高温橙色预警 局地气温将超39℃

8月16日15时54分,湖北省气象台发布高温橙色省级预警。预计17日白天,除西部高海拔地区外,全省大部分地区最高气温将达35~38℃,其中恩施北部、宜昌、武汉、鄂州、黄冈、黄石、咸宁等地局地气温...

海南三沙市举行2025年开渔活动

8月16日,为期三个半月的南海伏季休渔期结束。在西沙永兴岛西渔码头,海南三沙市举行2025年开渔活动,渔民陆续出海捕鱼,标志着新一轮捕捞季正式开启。免责声明: 本文内容由开放的智能模型自动生...

山东荣成面包车坠海致6人遇难

8月16日4时许,山东荣成市桃园渔港发生一起面包车坠海事故,车上11人中6人不幸遇难,3人获救生命体征平稳,其余2人正在搜救。事故原因及善后工作正在进行中。免责声明: 本文内容由开放的智能模型...

星动L7夺首届机器人跳高冠军

2025年8月16日,在首届世界人形机器人运动会第二天比赛中,星动纪元的全尺寸双足人形机器人星动L7在原地跳高项目中以0.95米的成绩夺冠。江淮中心凌空行者队以0.87米获得亚军,魔法原子以0.52米位...