谷歌发布新AI视频生成模型Veo3 支持同时生成画面和背景音

21 05月 2025

2025-05-21 19:27

【太平洋科技快讯】5月21日，在2025年的I/O开发者大会上，谷歌发布了其最新一代视频生成模型Veo3，该模型的核心功能在于其强大的音效和对话生成能力。它不仅能够生成逼真的视频画面，还能根据场景添加相应的背景音效，例如鸟鸣声、街头交通噪音、人物对话等，使得生成的视频更加生动、真实，极具沉浸感。

此外，Veo3在物理模拟和口型同步方面也表现出色。它能精准地模拟真实世界的动态变化，并确保生成的人物对话与其唇形变化完美匹配，进一步提升视听体验的真实度。

据悉，Veo3采用了先进的自然语言处理(NLP)和语音合成技术，实现了视频和音频的同步生成。这一突破性技术极大地提高了创作效率，用户只需提供文本或图像提示，即可快速生成完整的音视频内容。

Veo3的应用场景十分广泛。在影视制作领域，它可以用于快速生成预告片、场景片段，甚至可以辅助创作完整的影视作品。在虚拟现实领域，Veo3可用于创建虚拟角色、互动场景或沉浸式体验。此外，Veo3的多人和多人唇形同步功能，为数字人技术的发展带来了新的可能性，有助于推动虚拟人类与真实人类之间的交互。

目前，Veo3仅对美国地区的Gemini Ultra用户和Vertex AI的企业用户开放，并且部分功能(如Flow)目前仅支持英文提示词，这限制了非英语用户的体验。而随着技术的进一步发展，Veo3有望扩展到更多地区和语言，为全球用户提供更广泛的支持。