OpenAI近日宣布推出“安全评估中心”网页,旨在更频繁地公开其内部人工智能模型的安全评估结果。此举意在提高透明度,展示模型在有害内容生成、模型越狱及幻觉现象等方面的测试表现。未来,该平台将在重大模型更新后及时发布相关指标,分享公司在可扩展模型能力和安全评估方法上的进展。
此前,OpenAI因部分模型的安全测试流程过快而受到批评。公司CEO山姆*奥尔特曼也曾因模型安全审查问题引发争议。上月,ChatGPT默认模型GPT-4o的一次更新因回应过于“谄媚”被撤回,OpenAI随后引入“alpha阶段”测试机制,允许用户提前反馈以优化模型性能。通过这一举措,OpenAI希望推动行业在透明度与安全性方面共同进步。