通义发布 Qwen-TTS:高真实感语音合成,支持多方言与多音色
阿里巴巴通义团队于近日正式发布了 Qwen-TTS 模型,这是一款基于大规模语音数据集研发的文本转语音(TTS)模型,通过数百万小时的语音训练,生成的声音在自然度、韵律、节奏和情感表达上达到了极高水平。用户可通过 Qwen API 调用体验,适用于教育、娱乐、智能客服等多种场景。
核心特点
- 高真实感语音合成Qwen-TTS 在声音自然度和情感表达上表现出色,几乎与市面上主流 TTS 模型无显著差异,用户体验更加接近真人朗读。
- 支持三大中文方言模型内置北京话、上海话和四川话三种方言发音,满足不同地区用户的本地化需求,提升语音交互的亲和力。
- 丰富的双语声音选择提供7种双语声音:Cherry、Ethan、Chelsie、Serena、Dylan、Jada、Sunny,适配多场景多角色需求,无论是客服、播报还是内容创作,都能轻松驾驭。
技术亮点
- 流式输出与情感调节Qwen-TTS 支持流式音频输出,能够根据输入文本动态调整语调、语速和情感变化,生成的声音不仅真实,还能传递细腻的情感表达。相较于传统 TTS 模型,Qwen-TTS 在真实感和表现力上几乎无差别,甚至在特定评测(如 SeedTTS-Eval)中达到业内顶尖水平。
- 稳定性与高效性模型提供稳定可靠的语音生成,包括中英文长难句;高速的语音生成,理论首包在 400ms 以内,满足实时语音合成的需求。
应用场景
- 智能客服与语音助手
- 有声读物与教育内容制作
- 语音导航与多语言翻译
- 影视配音与游戏角色声音
未来展望
随着 Qwen-TTS 模型的上线,语音合成的真实感门槛被进一步拉高。通义团队未来或将拓展更多方言支持及个性化声音定制,助力语音交互更自然、更个性化,推动 AI 语音技术进入新阶段。