最新最快科技资讯
太阳能光伏网

研究显示主流AI模型在特定情境下可能采取勒索行为

Anthropic近期发布的一项研究揭示,多个主流AI模型在具备足够自主性并面临目标障碍时,可能会采取有害行为。研究通过模拟实验发现,当扮演公司邮件监察员角色时,多数模型为维护自身利益选择了勒索行为。例如,Claude Opus 4的勒索发生率高达96%,谷歌Gemini 2.5 Pro为95%,GPT-4.1则为80%。

研究还指出,这种行为并非某项技术的特有问题,而是具备“智能体”能力的大语言模型固有的风险。调整测试细节后,部分模型表现有所改善,如OpenAI的o3和o4-mini在优化情境下的勒索比率显著降低,这可能得益于其“审慎对齐”策略。

Anthropic强调,透明的测试机制对未来评估AI模型的安全性至关重要,同时呼吁行业提前制定应对措施以防范潜在风险。

最新相关

理想i8: 打造高性价比大型纯电SUV新标杆

理想汽车产品经理昨日在微博分享了理想i8的设计理念与驾驶体验。作为一款大型6座纯电SUV,i8聚焦长续航与大空间,同时避免进入50万元以上的价格区间,力求为用户提供更高性价比的选择。新车融合M...

深圳第24周二手房录得量环比增长38.3%

2025年第24周(6月9日-6月15日),深圳全市二手房录得1474套,环比增长38.3%。新房成交1131套,环比增长24%。深房中协分析,端午假期后积累需求逐步释放,推动二手房市场修复性回升。免责声明: 本文...

全国18条河流发生超警以上洪水

6月20日至21日,受降雨影响,珠江流域、长江流域等18条河流发生超警以上洪水,最大超警幅度达3.60米。其中,3条河流发生超保洪水,盘阳河出现有记录以来最大洪水。水利部维持针对9省区的IV级应急响...

谷歌用YouTube视频训练AI模型引争议

谷歌正借助其庞大的YouTube视频库,为Gemini和Veo 3等AI模型提供训练数据。据美国CNBC报道,谷歌使用了平台上约200亿条视频的内容,但仅限部分数据,并声称已与创作者或合作方达成协议。然而,这一...