腾讯混元开源 HunyuanVideo-Avatar:照片秒变会说话的数字人,支持多人对口型
一、HunyuanVideo-Avatar 模型正式开源
2025年5月28日,腾讯混元与腾讯音乐联合发布并开源了语音驱动数字人模型 HunyuanVideo-Avatar。该模型支持用户上传一张人物照片和一段音频,自动生成具有自然表情、唇形同步及全身动作的动态视频,实现照片“开口说话”或“唱歌”的效果。
目前,单人模式已在腾讯混元官网上线,支持最长14秒的音频生成视频。多角色模式也即将开源,进一步拓展应用场景。
二、核心技术亮点
- 多景别支持:模型支持头肩、半身与全身景别,增强视频的真实感和表现力。
- 多风格与多物种:支持赛博朋克、2D动漫、中国水墨画等多种风格,以及机器人、动物等多种角色形象。
- 双人及多人场景:即将支持多角色互动,满足多人对口型、对话等复杂场景需求。
- 情感与环境理解:模型能够自动理解图片与音频中的情感和环境信息,生成更具表现力的视频内容。
三、应用场景广泛
HunyuanVideo-Avatar 模型适用于短视频创作、电商与广告等多种应用场景。用户可以快速制作产品介绍视频、多人互动广告等,降低制作成本,提高内容创作效率。
四、体验与获取方式
- 在线体验:用户可在腾讯混元官网的“模型广场-混元生视频-数字人-语音驱动-HunyuanVideo-Avatar”中体验该模型。
- 开源地址:模型已在 GitHub 上开源,开发者可获取源码进行二次开发和研究。
五、未来发展方向
腾讯混元团队表示,未来将继续优化模型性能,提升生成视频的质量和自然度。同时,将逐步开放更多功能,如多角色互动、长音频支持等,满足更广泛的应用需求。