Google Veo 3 正式发布:AI 视频生成进入音画同步新时代
在 2025 年的 Google I/O 开发者大会上,Google DeepMind 正式发布了其最新一代 AI 视频生成模型 Veo 3。该模型不仅能够根据文本或图像提示生成高质量的视频,还首次实现了音频与画面的同步生成,包括背景音效、环境音、音乐以及角色对白,标志着 AI 视频生成从“无声电影时代”迈入“音画同步时代”。
一、Veo 3 的核心特性
- 音频与视频同步生成:Veo 3 能够根据文本提示生成包含真实音效和对白的视频,具备出色的唇形同步能力,提升了视频的真实感和沉浸感。
- 复杂场景理解与物理模拟:该模型在运动精度、物理模拟和视觉真实感方面有显著提升,能够生成符合现实世界物理规律的动态画面。
- 多模态输入支持:除了文本,Veo 3 还支持图像作为输入,生成与之匹配的视频内容,扩展了创作的灵活性。
- 增强的提示理解能力:Veo 3 对复杂和长文本提示的理解能力增强,能够生成具有叙事连贯性的多镜头视频片段。
二、Flow:AI 驱动的电影制作工具
与 Veo 3 同时发布的还有 Flow,这是一个集成了 Veo、Imagen 和 Gemini 模型的 AI 电影制作工具。Flow 允许创作者通过自然语言描述场景、角色和视觉风格,生成一致性强的电影片段,并支持镜头控制、资产管理和场景构建等功能,极大地简化了视频制作流程。
三、订阅与使用方式
Veo 3 目前通过 Google 的 Gemini 应用提供,需订阅 AI Ultra 计划,月费为 $249.99。该计划还包括对 Flow 工具的访问权限,适合专业创作者和企业用户使用。
四、全球扩展与未来展望
Google 宣布将 Veo 3 的访问权限扩展至包括加拿大在内的 71 个国家和地区,预计将进一步推动全球范围内的 AI 视频创作热潮。随着技术的不断进步,Veo 3 有望在教育、娱乐、广告等多个领域发挥重要作用,开启 AI 驱动的内容创作新时代。