随着AI智能体在邮件处理、代码生成等高权限场景的广泛应用,其安全风险日益凸显。Meta AI近日推出LlamaFirewall系统,旨在为生产环境中的AI智能体提供系统级防护,应对提示注入攻击、行为偏离及不安全代码生成等核心挑战。
该系统采用分层框架,包含三大模块:基于BERT架构的PromptGuard 2可实时检测多语言提示注入;AlignmentCheck通过分析推理轨迹确保智能体行为一致性;CodeShield则静态筛查生成代码中的漏洞。测试数据显示,LlamaFirewall将攻击成功率降低90%至1.75%,同时保持较高任务实用性,代码检测精准度达96%。