国际研究团队利用真实手术录像对谷歌视频生成模型Veo-3进行专项测试。在SurgVeo基准评估中,该模型生成的腹腔与脑部手术视频虽具视觉冲击力,但医学逻辑性评分均低于1.8分。四位外科医生从四个维度评估发现,模型在神经外科场景中表现更差,手术逻辑性评分骤降至1.13分。
研究显示,93%的错误源于医学逻辑层面,包括虚构手术器械、违背生理规律的组织反应等。尽管研究人员尝试提供额外上下文线索,但模型对医学知识的理解能力未见改善。专家指出,此类AI若用于医学培训,可能误导手术机器人或医学生习得错误技术。
研究团队计划开源SurgVeo数据集,推动学界提升AI医学认知能力。当前视频生成模型仅能模仿表象,尚无法掌握真实手术的因果逻辑与生物机制。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信