标签:开源

腾讯混元开源 HunyuanVideo-Avatar:照片秒变会说话的数字人
AI讯息**腾讯混元开源 HunyuanVideo-Avatar:照片秒变会说话的数字人,支持多人对口型** **一、HunyuanVideo-Avatar 模型正式开源** 2025年5月28日,腾讯混元与腾讯音乐联合发布并开源了语音驱动数字人模型 HunyuanVideo-Avatar。该模型支持用户上传一张人物照片和一段音频,自动生成具有自然表情、唇形同步及全身动作的动态视频,实现照片“开口说话...
AI导航 • • 6

Google三款新模型发布:AI在医疗、无障碍和动物语言领域的应用前景
AI讯息**Google发布三款基于Gemma模型的变体:MedGemma、SignGemma与DolphinGemma** **一、MedGemma:面向医疗领域的多模态与文本推理模型** Google推出的MedGemma是基于Gemma 3架构的医疗AI模型,分为两个版本: * **MedGemma 4B**:多模态模型,结合了SigLIP图像编码器和语言模型,专为处理医学图像与文本任务设计。...
AI导航 • • 4

字节跳动开源的统一多模态推理模型BAGEL
AI讯息**BAGEL:字节跳动开源的统一多模态推理模型,挑战GPT-4o与Gemini 2.0** **一、BAGEL简介:统一的多模态理解与生成模型** BAGEL(ByteDance Adaptive Generalized Expert Learner)是字节跳动Seed团队在2025年5月开源发布的多模态大模型。该模型以统一的架构支持文本、图像、视频等多模态数据的理解与生成,具备与GPT-4...
AI导航 • • 3
AI 资讯
更多- 1 Hume EVI 3 发布:打造真正能“听懂你”的语音 AI
- 2 移动端AI革命:AI Edge Gallery + Gemma 模型解析
- 3 AI五年内淘汰半数白领新手?Anthropic CEO 发出预警
- 4 通义灵码 IDE 正式发布:国产 AI 编程工具全面升级
- 5 Mintlify 的 AI Assistant 如何提升开发者文档效率?
- 6 Google 开源 Gemma 3n 与 AI Edge 应用:端侧大模型正式登场
- 7 Cursor用户切换Trae的理由与迁移指南
- 8 腾讯混元开源 HunyuanVideo-Avatar:照片秒变会说话的数字人
- 9 开发者热评CodeRabbit:最值得试用的AI编程助手
- 10 DeepSeek-R1-0528模型开源,对标OpenAI的国产强者