G

GLM-OCR

由 zai-org 研发
开源项目 Python 全球 #python

GLM-OCR是一款基于GLM-V编解码架构的多模态OCR模型,专为复杂文档理解设计。它整合CogViT视觉编码器与GLM-0.5B语言解码器,并引入MTP损失和强化学习,实现训练效率、识别精度及泛化能力的显著提升。模型在OmniDocBench V1.5上取得94.62分的SOTA性能,特别擅长处理公式、表格和信息抽取。参数量仅0.9B,支持vLLM、SGLang等高效部署,推理延迟低且成本优化,是高并发及边缘场景下实现精准、快速文档智能处理的理想选择,并提供完善的SDK和工具链,全面开源易于集成。

  • 领先的识别性能:在OmniDocBench V1.5上取得SOTA,特别擅长处理公式、表格等复杂布局。
  • 专为实际业务场景优化:在复杂表格、代码文档、印章等挑战性场景中表现稳健。
  • 高效推理与部署:0.9B参数量,支持vLLM、SGLang,实现低延迟、高并发、成本优化。
  • 全面开源,易用易集成:提供完善SDK和工具链,安装便捷,可快速融入现有生产流程。