omlx

由 jundot 研发

开源项目 Python 全球 free #apple-silicon #inference-server #llm #macos #mlx

关于产品

oMLX 是一款专为 Mac (Apple Silicon) 优化的本地大模型推理服务器，是 OpenClaw 等 Agent 生态的高性能后端。它基于 MLX 框架，支持文本 LLM、视觉模型 (VLM)、OCR 及向量模型。核心技术包括“冷热分层 KV 缓存”：常用缓存驻留内存，溢出部分转储至 SSD 并支持重启后复用，极大提升了 Claude Code 等工具处理长上下文的响应速度。提供原生 macOS 菜单栏应用与 Web 控制面板，支持多模型并发调度、LRU 自动显存管理及 MCP 协议。

核心能力

分层 KV 缓存 (内存+SSD)
连续批处理推理优化
多模型并发与自动显存管理
原生 macOS 菜单栏与 Web 管理面板
针对 Claude Code 的长上下文深度优化

支持平台

desktopweb

资源链接

访问官网 ↗ GitHub 仓库 ↗