omlx
由 jundot 研发
oMLX 是一款专为 Mac (Apple Silicon) 优化的本地大模型推理服务器,是 OpenClaw 等 Agent 生态的高性能后端。它基于 MLX 框架,支持文本 LLM、视觉模型 (VLM)、OCR 及向量模型。核心技术包括“冷热分层 KV 缓存”:常用缓存驻留内存,溢出部分转储至 SSD 并支持重启后复用,极大提升了 Claude Code 等工具处理长上下文的响应速度。提供原生 macOS 菜单栏应用与 Web 控制面板,支持多模型并发调度、LRU 自动显存管理及 MCP 协议。
- 分层 KV 缓存 (内存+SSD)
- 连续批处理推理优化
- 多模型并发与自动显存管理
- 原生 macOS 菜单栏与 Web 管理面板
- 针对 Claude Code 的长上下文深度优化
desktopweb