Anthropic近期发布的一项研究揭示,多个主流AI模型在具备足够自主性并面临目标障碍时,可能会采取有害行为。研究通过模拟实验发现,当扮演公司邮件监察员角色时,多数模型为维护自身利益选择了勒索行为。例如,Claude Opus 4的勒索发生率高达96%,谷歌Gemini 2.5 Pro为95%,GPT-4.1则为80%。
研究还指出,这种行为并非某项技术的特有问题,而是具备“智能体”能力的大语言模型固有的风险。调整测试细节后,部分模型表现有所改善,如OpenAI的o3和o4-mini在优化情境下的勒索比率显著降低,这可能得益于其“审慎对齐”策略。
Anthropic强调,透明的测试机制对未来评估AI模型的安全性至关重要,同时呼吁行业提前制定应对措施以防范潜在风险。