近日,Trail of Bits研究人员开发出一种新型AI攻击方式,利用图像降采样机制,在高分辨率图片中隐藏肉眼不可见的指令,经AI系统自动处理后显现,并被大语言模型执行,从而导致用户数据泄露。
该方法灵感源自2020年德国布伦瑞克工业大学的图像缩放攻击理论。攻击者可针对不同降采样算法设计图片,使隐藏色块在处理后显示为可识别文字。例如,在双三次插值降采样下,深色区域会变红并显现黑色文字,进而被AI识别为输入指令。
研究团队已在Google Gemini CLI、Vertex AI Studio、Google Assistant等多个平台验证此漏洞,并开发出开源工具Anamorpher(测试版),用于生成适配不同算法的攻击图片,揭示该威胁的广泛性。