请教下各位佬友关于本地部署的问题

2026-04-13 12:261阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

最近手上有台m4max 32g的macstudio，如是想在本地部署模型使用，体验体验效果。
用过ollmam，lmstudio以及oMLX这三个推理工具，因为就本地个人使用，也不怎么考虑并发的问题，体验过后觉得oMLX对于mac系统的优化相对其它两个更合适，而且它的本地硬盘缓存确实体验起来速度也相对更快
使用过程中还是遇到了一些体验上的问题，这里做一个记录，如果有遇到过相同问题的佬友有解决办法希望不吝赐教。
我本地部署了两个模型分别是
Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX-4bit
gemma-4-26b-a4b-it-4bit
都是mlx格式，上下文窗口，maxtoken等参数设置基本一致，通过本地端口分别接入了cc和cherrystudio中。
用cs分别跟两个模型聊天，反应速度都很快。但使用cc就完全不一样了，首先不管是gemma还是qwen速度都相对来说慢很多，但是gemma相对来说还能用，qwen基本上有点不太能用，看了日志，cc慢是因为cc请求会携带一堆参数，相对cs来说大很多，但还是有一个奇怪的问题，在cc中两个模型相同的会话，要处理的token总数是不一样的，gemma需要处理4k左右的参数，每秒能处理1k左右，通常都能处理完成，而qwen居然要10k左右，每秒只能处理200不到的token，并且有时候处理到70％左右就卡住了。
第二个问题就是oMLX是只支持一次性加载一个模型的，如果我说想在不同的工具中接入不同的模型好像没办法，我试过用cs接入qwen和gemma，依次请求，后面加载的会覆盖前面加载的模型，导致前面的对话直接终止。
还有一个使用上的问题，本地幻觉好像比较高，比如我用openclaw接入gemma，让他了解安装某个skill，他没有安装却说安装好了，而且让他运行shell的一些命令，不会有任何主动的反馈，它说运行了就没下文了，实际上可能压根没运行，必须你不停的一句句的引导，可能需要7，8轮对话他才能把这件事情处理完成，而用url订阅的模型都是能一次成功，并且能主动反馈结果。
这几个问题导致感觉使用本地部署的模型在接入cc或者openclaw后基本都无法正常使用，本地部署是不是还是得部署参数更大的模型才能有一定的效果。像26b左右的参数模型基本上只有单纯的聊天功能

网友解答：

--【壹】--：

标签：人工智能快问快答

问题描述：

网友解答：

--【壹】--：

标签：人工智能快问快答

相关推荐

相关推荐