MLX 本地 OpenAI API 调用示例

这个页面是独立的，不会碰你现在的 React 页面。它直接调用你已经启动的 mlx-community/gemma-4-e2b-it-4bit 本地服务，接口风格尽量贴近 OpenAI。你可以拿它当浏览器调试页，也可以把下面那组配置抄到 OpenClew 或 Alma 里。如果你把这个页面托管到公开网站或 Hugging Face Space，真正运行的 MLX 服务仍然应该在你自己的 Mac 上。

发送 OpenAI 风格请求

这里支持两种接口：/chat/completions 和 /responses。一般先用 chat/completions 最省事。

Base URL

Token

Model

接口类型

max_tokens / max_output_tokens

temperature

流式输出

边生成边显示，看起来会更快

启用 Thinking

模型支持时，尝试输出 <think> 或 Gemma 的 thought 通道。开启后更容易吃掉输出 token。

thinking_budget，可选

System Prompt

User Prompt

上传图片，可选

支持单张图片问答。你选图后，页面会把图片转成浏览器内的 data:image/... 再发给本地 MLX 服务，不需要额外文件服务器。

已选择图片

还没有选择图片。

模型回答

这里会把正文和 think 节点拆开显示。页面同时兼容 <think>...</think> 和 Gemma 常见的 <|channel>thought ... <channel|> 输出格式。

还没有回答。

Think 节点

暂无 think 内容。

Usage / 速度

还没有 usage。

请求与原始返回

如果你要把这个页面的行为照搬进别的系统，最值得看的是下面两块。

等价 cURL

还没有生成。

原始 JSON 返回

还没有返回。

MLX 本地 OpenAI API 调用示例

推荐配置

发送 OpenAI 风格请求

模型回答

请求与原始返回