最新最快科技资讯
太阳能光伏网

Meta推出J1系列模型,显著提升判断准确性与公平性

近日,科技媒体marktechpost报道,Meta公司发布了J1系列模型,该模型通过强化学习和合成数据训练,在判断准确性和公平性方面取得突破性进展。J1系列模型旨在解决“LLM-as-a-Judge”模式中的一致性差、推理深度不足等问题。

传统奖励模型依赖静态标注,难以有效评估主观或开放性问题。而J1采用22000个合成偏好对进行训练,结合Group Relative Policy Optimization(GRPO)算法,优化训练过程并消除位置偏见。测试结果显示,J1-Llama-70B在PPE基准测试中准确率达69.6%,远超同类模型。此外,J1支持多种判断格式,展现出高度灵活性和通用性。这一成果表明,推理质量而非单纯的数据量,是判断模型性能的关键因素。

最新相关

苹果推送iOS/iPadOS 26开发者预览版Beta 3更新

苹果今日向iPhone和iPad用户推送了iOS/iPadOS 26开发者预览版Beta 3更新(内部版本号: 23A5287g),距离上一版本发布间隔14天。用户可通过两种方式升级测试版系统: 注册Apple Beta版软件计划后,...

索尼计划2029年末推出PS6游戏机

据外媒 DetectiveSeeds 报道,索尼计划在 2029 年末推出 PS6 游戏机,而相应机型的开发者套件(Dev Kits)最快将在明年开始向游戏厂商发放,这意味着 PS5 的生命周期将持续至 2029 年,PS5 系列游戏...