球推荐 mac 部署本地模型的方式

2026-04-11 12:401阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

今天看 gemma4 出了。想尝试一下。之前我用 ollma 部署 qwen 35b 感觉有点难用。而且也没有服务 可能因为是 app 的方式。设备是 m3max64g
有没有什么服务可以比 ollma 效率高一点。而且也方便暴露 api 使用。也方便配置例如关闭思考这种配置的软件嘞?

更新。 研究了下 mac 好像跑 mlx 会好一点。所以推荐 lmstudio 和 omlx。
想要玩 gemma4 的目前 omlx 有点 bug。作者说周末会修复。(我也不知道论坛现在啥规则 不敢贴 github 链接 大概意思知道就好了)

网友解答:
--【壹】--:

omlx 吧,相比 LM Studio 还能再节省点内存


--【贰】--:

mac可以试试omlx

omlx.ai

oMLX — LLM inference, optimized for your Mac

Native macOS inference server built on MLX. Paged SSD KV caching, continuous batching, and drop-in API for Claude Code, OpenClaw, and Cursor.


--【叁】--:

oMlx


--【肆】--:

mac设备试试GitHub - jundot/omlx: LLM inference server with continuous batching & SSD caching for Apple Silicon — managed from the macOS menu bar · GitHub


--【伍】--:

蹲蹲蹲蹲


--【陆】--:

有点好奇,各位佬在本地部署是想图个鲜,还是真有应用场景啊,我说实话舍不得拿自己的电脑长时间跑模型


--【柒】--:

模型要下载专门为 silicon 优化过的,模型名字会带有 mlx,使用 lm studio 或者 omlx 加载模型。


--【捌】--:

同设备,蹲一手


--【玖】--:

lmstudio


--【拾】--:

我还没有实际应用上(主要外面的便宜量大。自己部署的还呆呆的。但是确实在越来越好了。我就是想翻译啊 或者语音转文字的这种小任务对接试试 延迟能低一点就好


--【拾壹】--:

image1624×882 66.6 KB
蚌埠住了。。是不是我模型下错了。。


--【拾贰】--:

同蹲 最近在看本地模型


--【拾叁】--:

部署方便就lmstudio吧,内存不够就上量化版,要高效推理就vllm


--【拾肆】--:

我用的easydict 然后ollama部署腾讯的1.5B的翻译模型 速度还可以 就是模型不太行 有的时候会输出繁体 我感觉不影响日常使用 也不咋影响续航


--【拾伍】--:

omlx 啊,然后想转协议就本地再搭个中转。