标签:开源

腾讯混元开源 HunyuanVideo-Avatar:照片秒变会说话的数字人

AI讯息

**腾讯混元开源 HunyuanVideo-Avatar:照片秒变会说话的数字人,支持多人对口型** **一、HunyuanVideo-Avatar 模型正式开源** 2025年5月28日,腾讯混元与腾讯音乐联合发布并开源了语音驱动数字人模型 HunyuanVideo-Avatar。该模型支持用户上传一张人物照片和一段音频,自动生成具有自然表情、唇形同步及全身动作的动态视频,实现照片“开口说话...

AI导航 6

Google三款新模型发布:AI在医疗、无障碍和动物语言领域的应用前景

AI讯息

**Google发布三款基于Gemma模型的变体:MedGemma、SignGemma与DolphinGemma** **一、MedGemma:面向医疗领域的多模态与文本推理模型** Google推出的MedGemma是基于Gemma 3架构的医疗AI模型,分为两个版本: * **MedGemma 4B**:多模态模型,结合了SigLIP图像编码器和语言模型,专为处理医学图像与文本任务设计。...

AI导航 4

字节跳动开源的统一多模态推理模型BAGEL

AI讯息

**BAGEL:字节跳动开源的统一多模态推理模型,挑战GPT-4o与Gemini 2.0** **一、BAGEL简介:统一的多模态理解与生成模型** BAGEL(ByteDance Adaptive Generalized Expert Learner)是字节跳动Seed团队在2025年5月开源发布的多模态大模型。该模型以统一的架构支持文本、图像、视频等多模态数据的理解与生成,具备与GPT-4...

AI导航 3