MLX 本地 OpenAI API 调用示例

这个页面是独立的,不会碰你现在的 React 页面。它直接调用你已经启动的 mlx-community/gemma-4-e2b-it-4bit 本地服务,接口风格尽量贴近 OpenAI。 你可以拿它当浏览器调试页,也可以把下面那组配置抄到 OpenClew 或 Alma 里。 如果你把这个页面托管到公开网站或 Hugging Face Space,真正运行的 MLX 服务仍然应该在你自己的 Mac 上。

推荐配置

这三项是你本机这套服务最推荐的默认值。`token` 只是为了兼容很多客户端必须填写的习惯, 当前这个本地 MLX 服务并不会真的校验它。

Base URL http://当前页面主机:8080
API Token local-mlx
Model mlx-community/gemma-4-e2b-it-4bit
如果某个客户端死活要求走 /v1/chat/completions 这种固定地址,而不是只填 Base URL,它可能会对不上这个服务的原生路径。这个页面里我已经帮你按真实路径调好了, 但第三方客户端如果报 404,通常就是它偷偷补了 /v1
还没开始请求。你可以先点“测试健康检查”。

发送 OpenAI 风格请求

这里支持两种接口:/chat/completions/responses。一般先用 chat/completions 最省事。

边生成边显示,看起来会更快
模型支持时,尝试输出 <think> 或 Gemma 的 thought 通道。开启后更容易吃掉输出 token。
支持单张图片问答。你选图后,页面会把图片转成浏览器内的 data:image/... 再发给本地 MLX 服务,不需要额外文件服务器。
已选择图片预览
已选择图片
还没有选择图片。

模型回答

这里会把正文和 think 节点拆开显示。页面同时兼容 <think>...</think> 和 Gemma 常见的 <|channel>thought ... <channel|> 输出格式。

还没有回答。
Think 节点
暂无 think 内容。
Usage / 速度
还没有 usage。

请求与原始返回

如果你要把这个页面的行为照搬进别的系统,最值得看的是下面两块。

等价 cURL
还没有生成。
原始 JSON 返回
还没有返回。