o

omlx

由 jundot 研发
开源项目 Python 全球 free #apple-silicon#inference-server#llm#macos#mlx

oMLX 是一款专为 Mac (Apple Silicon) 优化的本地大模型推理服务器,是 OpenClaw 等 Agent 生态的高性能后端。它基于 MLX 框架,支持文本 LLM、视觉模型 (VLM)、OCR 及向量模型。核心技术包括“冷热分层 KV 缓存”:常用缓存驻留内存,溢出部分转储至 SSD 并支持重启后复用,极大提升了 Claude Code 等工具处理长上下文的响应速度。提供原生 macOS 菜单栏应用与 Web 控制面板,支持多模型并发调度、LRU 自动显存管理及 MCP 协议。

  • 分层 KV 缓存 (内存+SSD)
  • 连续批处理推理优化
  • 多模型并发与自动显存管理
  • 原生 macOS 菜单栏与 Web 管理面板
  • 针对 Claude Code 的长上下文深度优化
desktopweb