PRODUCTS // 关联产品 TOTAL: 02
VoxCPM
开源社区
VoxCPM 是一个无需分词器的文本到语音系统,通过端到端的扩散自回归架构直接生成连续语音表示,从而实现高度自然和富有表现力的语音合成。最新版本 VoxCPM2 是一个拥有20亿参数的模型,在超过200万小时的多语言语音数据上训练,支持30种语言、语音设计、可控语音克隆和48kHz录音室品质的音频输出,内置超分辨率,无需外部升采样器。
MiniCPM-V
开源社区
MiniCPM-V 是由 OpenBMB 开发的端侧多模态大模型,专注于高效的图像和视频理解。它采用 Intra-ViT 早期压缩技术和 LLaVA-UHD v4 架构,显著降低了视觉编码计算开销,支持混合 4x/16x 视觉标记压缩。该模型以 1.3B 的极小参数量实现了超越大尺寸模型的性能,支持在 iOS、Android 和鸿蒙等移动端流畅运行,具备强大的实时视觉对话、OCR 识别及视频分析能力。