MLX 本地 OpenAI API 调用示例
这个页面是独立的,不会碰你现在的 React 页面。它直接调用你已经启动的
mlx-community/gemma-4-e2b-it-4bit 本地服务,接口风格尽量贴近 OpenAI。
你可以拿它当浏览器调试页,也可以把下面那组配置抄到 OpenClew 或 Alma 里。
如果你把这个页面托管到公开网站或 Hugging Face Space,真正运行的 MLX 服务仍然应该在你自己的 Mac 上。
推荐配置
这三项是你本机这套服务最推荐的默认值。`token` 只是为了兼容很多客户端必须填写的习惯, 当前这个本地 MLX 服务并不会真的校验它。
Base URL
http://当前页面主机:8080
API Token
local-mlx
Model
mlx-community/gemma-4-e2b-it-4bit
如果某个客户端死活要求走
/v1/chat/completions 这种固定地址,而不是只填
Base URL,它可能会对不上这个服务的原生路径。这个页面里我已经帮你按真实路径调好了,
但第三方客户端如果报 404,通常就是它偷偷补了 /v1。
还没开始请求。你可以先点“测试健康检查”。
发送 OpenAI 风格请求
这里支持两种接口:/chat/completions 和 /responses。一般先用
chat/completions 最省事。
模型回答
这里会把正文和 think 节点拆开显示。页面同时兼容 <think>...</think> 和 Gemma 常见的 <|channel>thought ... <channel|> 输出格式。
还没有回答。
Think 节点
暂无 think 内容。
Usage / 速度
还没有 usage。
请求与原始返回
如果你要把这个页面的行为照搬进别的系统,最值得看的是下面两块。
等价 cURL
还没有生成。
原始 JSON 返回
还没有返回。