OmniVoice是k2-fsa推出的一款最先进的大规模多语言零样本文本转语音(TTS)模型,卓越支持逾600种语言。它采纳创新的扩散语言模型架构,不仅能生成高质量语音,更具备行业领先的推理速度。核心功能涵盖极致精准的语音克隆、通过性别、年龄、音高、口音等细粒度属性进行声音定制设计,以及对非语言符号和中文拼音的智能发音纠正。凭借其无与伦比的语言覆盖广度与高效性能,OmniVoice是多语言内容创作、个性化语音合成及各类实时应用场景的理想解决方案。
Voice-Pro 是由 ABUS-AIKOREA 开发的一款强大的 AI 驱动的桌面级 Web 应用程序,专注于多媒体内容的创建和处理。它集成了 YouTube 视频下载、语音分离、高级语音识别、多语言翻译和文本到语音转换等功能。该工具支持零样本语音克隆和多语言文本转语音,旨在为内容创作者、研究人员和多语言专业人士提供一站式解决方案。其核心技术包括 Whisper 系列、F5-TTS、E2-TTS、CosyVoice 等,提供高质量的语音识别、克隆和翻译服务。
VoiceFlow 是一个高效的文本到语音(TTS)系统,它基于整流流匹配(Rectified Flow Matching)技术,旨在解决传统扩散模型在语音合成效率上的不足。该产品是其ICASSP 2024论文的官方实现,通过学习噪声与数据之间的连续流来生成高质量的梅尔频谱图,并通过流整流过程进一步优化采样轨迹,从而在有限的采样步数下实现卓越的合成质量和效率。它提供了Kaldi风格的数据组织和灵活的训练配置,并支持监督持续时间建模和实验性的语音转换功能。
VoxCPM 是一个无需分词器的文本到语音系统,通过端到端的扩散自回归架构直接生成连续语音表示,从而实现高度自然和富有表现力的语音合成。最新版本 VoxCPM2 是一个拥有20亿参数的模型,在超过200万小时的多语言语音数据上训练,支持30种语言、语音设计、可控语音克隆和48kHz录音室品质的音频输出,内置超分辨率,无需外部升采样器。
pyVideoTrans 是一款开源的全自动视频翻译与AI配音工具,可实现音视频到多语言的无缝转换。其工作流完整涵盖语音识别(ASR)、大模型字幕翻译、多角色语音合成(TTS)及音视频自动同步。特点是支持说话人分离与零样本声音克隆,兼容本地离线模型(如Faster-Whisper、Ollama)和众多主流云端API。提供带暂停校对的GUI图形界面以及方便批量处理的CLI命令行模式,是一款高效的多媒体本地化利器。