OmniVoice

由 k2-fsa 研发

开源项目 Python 全球 free #text-to-speech #voice-cloning #multilingual-tts #diffusion-model

关于产品

OmniVoice是k2-fsa推出的一款最先进的大规模多语言零样本文本转语音（TTS）模型，卓越支持逾600种语言。它采纳创新的扩散语言模型架构，不仅能生成高质量语音，更具备行业领先的推理速度。核心功能涵盖极致精准的语音克隆、通过性别、年龄、音高、口音等细粒度属性进行声音定制设计，以及对非语言符号和中文拼音的智能发音纠正。凭借其无与伦比的语言覆盖广度与高效性能，OmniVoice是多语言内容创作、个性化语音合成及各类实时应用场景的理想解决方案。

核心能力

广泛支持600+种语言的大规模多语言零样本文本转语音能力。
业界领先的语音克隆与通过细粒度属性（如性别、年龄、音高）进行声音设计。
支持非语言符号和中文拼音发音纠正，提供卓越的推理速度（RTF低至0.025）。

支持平台

linuxmacos

资源链接

GitHub 仓库 ↗