球推荐 mac 部署本地模型的方式
- 内容介绍
- 文章标签
- 相关推荐
今天看 gemma4 出了。想尝试一下。之前我用 ollma 部署 qwen 35b 感觉有点难用。而且也没有服务 可能因为是 app 的方式。设备是 m3max64g
有没有什么服务可以比 ollma 效率高一点。而且也方便暴露 api 使用。也方便配置例如关闭思考这种配置的软件嘞?
更新。 研究了下 mac 好像跑 mlx 会好一点。所以推荐 lmstudio 和 omlx。
想要玩 gemma4 的目前 omlx 有点 bug。作者说周末会修复。(我也不知道论坛现在啥规则 不敢贴 github 链接 大概意思知道就好了)
--【壹】--:
用 omlx 吧,相比 LM Studio 还能再节省点内存
--【贰】--:
mac可以试试omlx
oMLX — LLM inference, optimized for your Mac
Native macOS inference server built on MLX. Paged SSD KV caching, continuous batching, and drop-in API for Claude Code, OpenClaw, and Cursor.
--【叁】--:
oMlx
--【肆】--:
mac设备试试GitHub - jundot/omlx: LLM inference server with continuous batching & SSD caching for Apple Silicon — managed from the macOS menu bar · GitHub
--【伍】--:
蹲蹲蹲蹲
--【陆】--:
有点好奇,各位佬在本地部署是想图个鲜,还是真有应用场景啊,我说实话舍不得拿自己的电脑长时间跑模型
--【柒】--:
模型要下载专门为 silicon 优化过的,模型名字会带有 mlx,使用 lm studio 或者 omlx 加载模型。
--【捌】--:
同设备,蹲一手
--【玖】--:
lmstudio
--【拾】--:
我还没有实际应用上(主要外面的便宜量大。自己部署的还呆呆的。但是确实在越来越好了。我就是想翻译啊 或者语音转文字的这种小任务对接试试 延迟能低一点就好
--【拾壹】--:
image1624×882 66.6 KB
蚌埠住了。。是不是我模型下错了。。
--【拾贰】--:
同蹲 最近在看本地模型
--【拾叁】--:
部署方便就lmstudio吧,内存不够就上量化版,要高效推理就vllm
--【拾肆】--:
我用的easydict 然后ollama部署腾讯的1.5B的翻译模型 速度还可以 就是模型不太行 有的时候会输出繁体 我感觉不影响日常使用 也不咋影响续航
--【拾伍】--:
omlx 啊,然后想转协议就本地再搭个中转。
今天看 gemma4 出了。想尝试一下。之前我用 ollma 部署 qwen 35b 感觉有点难用。而且也没有服务 可能因为是 app 的方式。设备是 m3max64g
有没有什么服务可以比 ollma 效率高一点。而且也方便暴露 api 使用。也方便配置例如关闭思考这种配置的软件嘞?
更新。 研究了下 mac 好像跑 mlx 会好一点。所以推荐 lmstudio 和 omlx。
想要玩 gemma4 的目前 omlx 有点 bug。作者说周末会修复。(我也不知道论坛现在啥规则 不敢贴 github 链接 大概意思知道就好了)
--【壹】--:
用 omlx 吧,相比 LM Studio 还能再节省点内存
--【贰】--:
mac可以试试omlx
oMLX — LLM inference, optimized for your Mac
Native macOS inference server built on MLX. Paged SSD KV caching, continuous batching, and drop-in API for Claude Code, OpenClaw, and Cursor.
--【叁】--:
oMlx
--【肆】--:
mac设备试试GitHub - jundot/omlx: LLM inference server with continuous batching & SSD caching for Apple Silicon — managed from the macOS menu bar · GitHub
--【伍】--:
蹲蹲蹲蹲
--【陆】--:
有点好奇,各位佬在本地部署是想图个鲜,还是真有应用场景啊,我说实话舍不得拿自己的电脑长时间跑模型
--【柒】--:
模型要下载专门为 silicon 优化过的,模型名字会带有 mlx,使用 lm studio 或者 omlx 加载模型。
--【捌】--:
同设备,蹲一手
--【玖】--:
lmstudio
--【拾】--:
我还没有实际应用上(主要外面的便宜量大。自己部署的还呆呆的。但是确实在越来越好了。我就是想翻译啊 或者语音转文字的这种小任务对接试试 延迟能低一点就好
--【拾壹】--:
image1624×882 66.6 KB
蚌埠住了。。是不是我模型下错了。。
--【拾贰】--:
同蹲 最近在看本地模型
--【拾叁】--:
部署方便就lmstudio吧,内存不够就上量化版,要高效推理就vllm
--【拾肆】--:
我用的easydict 然后ollama部署腾讯的1.5B的翻译模型 速度还可以 就是模型不太行 有的时候会输出繁体 我感觉不影响日常使用 也不咋影响续航
--【拾伍】--:
omlx 啊,然后想转协议就本地再搭个中转。

