关于产品

GLM-OCR是一款基于GLM-V编解码架构的多模态OCR模型，专为复杂文档理解设计。它整合CogViT视觉编码器与GLM-0.5B语言解码器，并引入MTP损失和强化学习，实现训练效率、识别精度及泛化能力的显著提升。模型在OmniDocBench V1.5上取得94.62分的SOTA性能，特别擅长处理公式、表格和信息抽取。参数量仅0.9B，支持vLLM、SGLang等高效部署，推理延迟低且成本优化，是高并发及边缘场景下实现精准、快速文档智能处理的理想选择，并提供完善的SDK和工具链，全面开源易于集成。

核心能力

领先的识别性能：在OmniDocBench V1.5上取得SOTA，特别擅长处理公式、表格等复杂布局。
专为实际业务场景优化：在复杂表格、代码文档、印章等挑战性场景中表现稳健。
高效推理与部署：0.9B参数量，支持vLLM、SGLang，实现低延迟、高并发、成本优化。
全面开源，易用易集成：提供完善SDK和工具链，安装便捷，可快速融入现有生产流程。

资源链接

GitHub 仓库 ↗