INDEX // #TEXT-TO-SPEECH

SYSTEM // ACTIVE // AGGREGATED TELEMETRY FOR ECOSYSTEM NODE

PRODUCTS // 关联产品 TOTAL: 05

OmniVoice是k2-fsa推出的一款最先进的大规模多语言零样本文本转语音（TTS）模型，卓越支持逾600种语言。它采纳创新的扩散语言模型架构，不仅能生成高质量语音，更具备行业领先的推理速度。核心功能涵盖极致精准的语音克隆、通过性别、年龄、音高、口音等细粒度属性进行声音定制设计，以及对非语言符号和中文拼音的智能发音纠正。凭借其无与伦比的语言覆盖广度与高效性能，OmniVoice是多语言内容创作、个性化语音合成及各类实时应用场景的理想解决方案。

#TEXT-TO-SPEECH#VOICE-CLONING#MULTILINGUAL-TTS

voice-pro

开源社区

Voice-Pro 是由 ABUS-AIKOREA 开发的一款强大的 AI 驱动的桌面级 Web 应用程序，专注于多媒体内容的创建和处理。它集成了 YouTube 视频下载、语音分离、高级语音识别、多语言翻译和文本到语音转换等功能。该工具支持零样本语音克隆和多语言文本转语音，旨在为内容创作者、研究人员和多语言专业人士提供一站式解决方案。其核心技术包括 Whisper 系列、F5-TTS、E2-TTS、CosyVoice 等，提供高质量的语音识别、克隆和翻译服务。

#AUDIOBOOK#FASTER-WHISPER#GRADIO

VoiceFlow-TTS

开源社区

VoiceFlow 是一个高效的文本到语音（TTS）系统，它基于整流流匹配（Rectified Flow Matching）技术，旨在解决传统扩散模型在语音合成效率上的不足。该产品是其ICASSP 2024论文的官方实现，通过学习噪声与数据之间的连续流来生成高质量的梅尔频谱图，并通过流整流过程进一步优化采样轨迹，从而在有限的采样步数下实现卓越的合成质量和效率。它提供了Kaldi风格的数据组织和灵活的训练配置，并支持监督持续时间建模和实验性的语音转换功能。

#CONDITIONAL-FLOW-MATCHING#GENERATIVE-MODELS#PROBABILISTIC-MODELS

VoxCPM

开源社区

VoxCPM 是一个无需分词器的文本到语音系统，通过端到端的扩散自回归架构直接生成连续语音表示，从而实现高度自然和富有表现力的语音合成。最新版本 VoxCPM2 是一个拥有20亿参数的模型，在超过200万小时的多语言语音数据上训练，支持30种语言、语音设计、可控语音克隆和48kHz录音室品质的音频输出，内置超分辨率，无需外部升采样器。

#AUDIO#DEEPLEARNING#MINICPM

pyvideotrans

开源社区

pyVideoTrans 是一款开源的全自动视频翻译与AI配音工具，可实现音视频到多语言的无缝转换。其工作流完整涵盖语音识别(ASR)、大模型字幕翻译、多角色语音合成(TTS)及音视频自动同步。特点是支持说话人分离与零样本声音克隆，兼容本地离线模型（如Faster-Whisper、Ollama）和众多主流云端API。提供带暂停校对的GUI图形界面以及方便批量处理的CLI命令行模式，是一款高效的多媒体本地化利器。

#SPEECH-TO-TEXT#TEXT-TO-SPEECH#VIDEO-TRANSITION