球推荐 mac 部署本地模型的方式

2026-04-11 12:401阅读0评论SEO问题

内容介绍
文章标签
相关推荐

问题描述：

今天看 gemma4 出了。想尝试一下。之前我用 ollma 部署 qwen 35b 感觉有点难用。而且也没有服务可能因为是 app 的方式。设备是 m3max64g
有没有什么服务可以比 ollma 效率高一点。而且也方便暴露 api 使用。也方便配置例如关闭思考这种配置的软件嘞？

更新。研究了下 mac 好像跑 mlx 会好一点。所以推荐 lmstudio 和 omlx。
想要玩 gemma4 的目前 omlx 有点 bug。作者说周末会修复。（我也不知道论坛现在啥规则不敢贴 github 链接大概意思知道就好了）

网友解答：

--【壹】--：

用 omlx 吧，相比 LM Studio 还能再节省点内存

--【贰】--：

mac可以试试omlx

omlx.ai

oMLX — LLM inference, optimized for your Mac

Native macOS inference server built on MLX. Paged SSD KV caching, continuous batching, and drop-in API for Claude Code, OpenClaw, and Cursor.

--【叁】--：

oMlx

--【肆】--：

mac设备试试GitHub - jundot/omlx: LLM inference server with continuous batching & SSD caching for Apple Silicon — managed from the macOS menu bar · GitHub

--【伍】--：

蹲蹲蹲蹲

--【陆】--：

有点好奇，各位佬在本地部署是想图个鲜，还是真有应用场景啊，我说实话舍不得拿自己的电脑长时间跑模型

--【柒】--：

模型要下载专门为 silicon 优化过的，模型名字会带有 mlx，使用 lm studio 或者 omlx 加载模型。

--【捌】--：

同设备，蹲一手

--【玖】--：

lmstudio

--【拾】--：

我还没有实际应用上（主要外面的便宜量大。自己部署的还呆呆的。但是确实在越来越好了。我就是想翻译啊或者语音转文字的这种小任务对接试试延迟能低一点就好

--【拾壹】--：

image1624×882 66.6 KB
蚌埠住了。。是不是我模型下错了。。

--【拾贰】--：

同蹲最近在看本地模型

--【拾叁】--：

部署方便就lmstudio吧，内存不够就上量化版，要高效推理就vllm

--【拾肆】--：

我用的easydict 然后ollama部署腾讯的1.5B的翻译模型速度还可以就是模型不太行有的时候会输出繁体我感觉不影响日常使用也不咋影响续航

--【拾伍】--：

omlx 啊，然后想转协议就本地再搭个中转。

标签：人工智能快问快答

问题描述：

今天看 gemma4 出了。想尝试一下。之前我用 ollma 部署 qwen 35b 感觉有点难用。而且也没有服务可能因为是 app 的方式。设备是 m3max64g
有没有什么服务可以比 ollma 效率高一点。而且也方便暴露 api 使用。也方便配置例如关闭思考这种配置的软件嘞？

网友解答：

--【壹】--：

用 omlx 吧，相比 LM Studio 还能再节省点内存

--【贰】--：

mac可以试试omlx

omlx.ai

oMLX — LLM inference, optimized for your Mac

Native macOS inference server built on MLX. Paged SSD KV caching, continuous batching, and drop-in API for Claude Code, OpenClaw, and Cursor.

--【叁】--：

oMlx

--【肆】--：

mac设备试试GitHub - jundot/omlx: LLM inference server with continuous batching & SSD caching for Apple Silicon — managed from the macOS menu bar · GitHub

--【伍】--：

蹲蹲蹲蹲

--【陆】--：

有点好奇，各位佬在本地部署是想图个鲜，还是真有应用场景啊，我说实话舍不得拿自己的电脑长时间跑模型

--【柒】--：

模型要下载专门为 silicon 优化过的，模型名字会带有 mlx，使用 lm studio 或者 omlx 加载模型。

--【捌】--：

同设备，蹲一手

--【玖】--：

lmstudio

--【拾】--：

--【拾壹】--：

image1624×882 66.6 KB
蚌埠住了。。是不是我模型下错了。。

--【拾贰】--：

同蹲最近在看本地模型

--【拾叁】--：

部署方便就lmstudio吧，内存不够就上量化版，要高效推理就vllm

--【拾肆】--：

我用的easydict 然后ollama部署腾讯的1.5B的翻译模型速度还可以就是模型不太行有的时候会输出繁体我感觉不影响日常使用也不咋影响续航

--【拾伍】--：

omlx 啊，然后想转协议就本地再搭个中转。

标签：人工智能快问快答

oMLX — LLM inference, optimized for your Mac

相关推荐

oMLX — LLM inference, optimized for your Mac

相关推荐