请教下各位佬友关于本地部署的问题
- 内容介绍
- 文章标签
- 相关推荐
最近手上有台m4max 32g的macstudio,如是想在本地部署模型使用,体验体验效果。
用过ollmam,lmstudio以及oMLX这三个推理工具,因为就本地个人使用,也不怎么考虑并发的问题,体验过后觉得oMLX对于mac系统的优化相对其它两个更合适,而且它的本地硬盘缓存确实体验起来速度也相对更快
使用过程中还是遇到了一些体验上的问题,这里做一个记录,如果有遇到过相同问题的佬友有解决办法希望不吝赐教。
我本地部署了两个模型分别是
Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX-4bit
gemma-4-26b-a4b-it-4bit
都是mlx格式,上下文窗口,maxtoken等参数设置基本一致,通过本地端口分别接入了cc和cherrystudio中。
用cs分别跟两个模型聊天,反应速度都很快。但使用cc就完全不一样了,首先不管是gemma还是qwen速度都相对来说慢很多,但是gemma相对来说还能用,qwen基本上有点不太能用,看了日志,cc慢是因为cc请求会携带一堆参数,相对cs来说大很多,但还是有一个奇怪的问题,在cc中两个模型相同的会话,要处理的token总数是不一样的,gemma需要处理4k左右的参数,每秒能处理1k左右,通常都能处理完成,而qwen居然要10k左右,每秒只能处理200不到的token,并且有时候处理到70%左右就卡住了。
第二个问题就是oMLX是只支持一次性加载一个模型的,如果我说想在不同的工具中接入不同的模型好像没办法,我试过用cs接入qwen和gemma,依次请求,后面加载的会覆盖前面加载的模型,导致前面的对话直接终止。
还有一个使用上的问题,本地幻觉好像比较高,比如我用openclaw接入gemma,让他了解安装某个skill,他没有安装却说安装好了,而且让他运行shell的一些命令,不会有任何主动的反馈,它说运行了就没下文了,实际上可能压根没运行,必须你不停的一句句的引导,可能需要7,8轮对话他才能把这件事情处理完成,而用url订阅的模型都是能一次成功,并且能主动反馈结果。
这几个问题导致感觉使用本地部署的模型在接入cc或者openclaw后基本都无法正常使用,本地部署是不是还是得部署参数更大的模型才能有一定的效果。像26b左右的参数模型基本上只有单纯的聊天功能
--【壹】--:
最近手上有台m4max 32g的macstudio,如是想在本地部署模型使用,体验体验效果。
用过ollmam,lmstudio以及oMLX这三个推理工具,因为就本地个人使用,也不怎么考虑并发的问题,体验过后觉得oMLX对于mac系统的优化相对其它两个更合适,而且它的本地硬盘缓存确实体验起来速度也相对更快
使用过程中还是遇到了一些体验上的问题,这里做一个记录,如果有遇到过相同问题的佬友有解决办法希望不吝赐教。
我本地部署了两个模型分别是
Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX-4bit
gemma-4-26b-a4b-it-4bit
都是mlx格式,上下文窗口,maxtoken等参数设置基本一致,通过本地端口分别接入了cc和cherrystudio中。
用cs分别跟两个模型聊天,反应速度都很快。但使用cc就完全不一样了,首先不管是gemma还是qwen速度都相对来说慢很多,但是gemma相对来说还能用,qwen基本上有点不太能用,看了日志,cc慢是因为cc请求会携带一堆参数,相对cs来说大很多,但还是有一个奇怪的问题,在cc中两个模型相同的会话,要处理的token总数是不一样的,gemma需要处理4k左右的参数,每秒能处理1k左右,通常都能处理完成,而qwen居然要10k左右,每秒只能处理200不到的token,并且有时候处理到70%左右就卡住了。
第二个问题就是oMLX是只支持一次性加载一个模型的,如果我说想在不同的工具中接入不同的模型好像没办法,我试过用cs接入qwen和gemma,依次请求,后面加载的会覆盖前面加载的模型,导致前面的对话直接终止。
还有一个使用上的问题,本地幻觉好像比较高,比如我用openclaw接入gemma,让他了解安装某个skill,他没有安装却说安装好了,而且让他运行shell的一些命令,不会有任何主动的反馈,它说运行了就没下文了,实际上可能压根没运行,必须你不停的一句句的引导,可能需要7,8轮对话他才能把这件事情处理完成,而用url订阅的模型都是能一次成功,并且能主动反馈结果。
这几个问题导致感觉使用本地部署的模型在接入cc或者openclaw后基本都无法正常使用,本地部署是不是还是得部署参数更大的模型才能有一定的效果。像26b左右的参数模型基本上只有单纯的聊天功能
最近手上有台m4max 32g的macstudio,如是想在本地部署模型使用,体验体验效果。
用过ollmam,lmstudio以及oMLX这三个推理工具,因为就本地个人使用,也不怎么考虑并发的问题,体验过后觉得oMLX对于mac系统的优化相对其它两个更合适,而且它的本地硬盘缓存确实体验起来速度也相对更快
使用过程中还是遇到了一些体验上的问题,这里做一个记录,如果有遇到过相同问题的佬友有解决办法希望不吝赐教。
我本地部署了两个模型分别是
Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX-4bit
gemma-4-26b-a4b-it-4bit
都是mlx格式,上下文窗口,maxtoken等参数设置基本一致,通过本地端口分别接入了cc和cherrystudio中。
用cs分别跟两个模型聊天,反应速度都很快。但使用cc就完全不一样了,首先不管是gemma还是qwen速度都相对来说慢很多,但是gemma相对来说还能用,qwen基本上有点不太能用,看了日志,cc慢是因为cc请求会携带一堆参数,相对cs来说大很多,但还是有一个奇怪的问题,在cc中两个模型相同的会话,要处理的token总数是不一样的,gemma需要处理4k左右的参数,每秒能处理1k左右,通常都能处理完成,而qwen居然要10k左右,每秒只能处理200不到的token,并且有时候处理到70%左右就卡住了。
第二个问题就是oMLX是只支持一次性加载一个模型的,如果我说想在不同的工具中接入不同的模型好像没办法,我试过用cs接入qwen和gemma,依次请求,后面加载的会覆盖前面加载的模型,导致前面的对话直接终止。
还有一个使用上的问题,本地幻觉好像比较高,比如我用openclaw接入gemma,让他了解安装某个skill,他没有安装却说安装好了,而且让他运行shell的一些命令,不会有任何主动的反馈,它说运行了就没下文了,实际上可能压根没运行,必须你不停的一句句的引导,可能需要7,8轮对话他才能把这件事情处理完成,而用url订阅的模型都是能一次成功,并且能主动反馈结果。
这几个问题导致感觉使用本地部署的模型在接入cc或者openclaw后基本都无法正常使用,本地部署是不是还是得部署参数更大的模型才能有一定的效果。像26b左右的参数模型基本上只有单纯的聊天功能
--【壹】--:
最近手上有台m4max 32g的macstudio,如是想在本地部署模型使用,体验体验效果。
用过ollmam,lmstudio以及oMLX这三个推理工具,因为就本地个人使用,也不怎么考虑并发的问题,体验过后觉得oMLX对于mac系统的优化相对其它两个更合适,而且它的本地硬盘缓存确实体验起来速度也相对更快
使用过程中还是遇到了一些体验上的问题,这里做一个记录,如果有遇到过相同问题的佬友有解决办法希望不吝赐教。
我本地部署了两个模型分别是
Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX-4bit
gemma-4-26b-a4b-it-4bit
都是mlx格式,上下文窗口,maxtoken等参数设置基本一致,通过本地端口分别接入了cc和cherrystudio中。
用cs分别跟两个模型聊天,反应速度都很快。但使用cc就完全不一样了,首先不管是gemma还是qwen速度都相对来说慢很多,但是gemma相对来说还能用,qwen基本上有点不太能用,看了日志,cc慢是因为cc请求会携带一堆参数,相对cs来说大很多,但还是有一个奇怪的问题,在cc中两个模型相同的会话,要处理的token总数是不一样的,gemma需要处理4k左右的参数,每秒能处理1k左右,通常都能处理完成,而qwen居然要10k左右,每秒只能处理200不到的token,并且有时候处理到70%左右就卡住了。
第二个问题就是oMLX是只支持一次性加载一个模型的,如果我说想在不同的工具中接入不同的模型好像没办法,我试过用cs接入qwen和gemma,依次请求,后面加载的会覆盖前面加载的模型,导致前面的对话直接终止。
还有一个使用上的问题,本地幻觉好像比较高,比如我用openclaw接入gemma,让他了解安装某个skill,他没有安装却说安装好了,而且让他运行shell的一些命令,不会有任何主动的反馈,它说运行了就没下文了,实际上可能压根没运行,必须你不停的一句句的引导,可能需要7,8轮对话他才能把这件事情处理完成,而用url订阅的模型都是能一次成功,并且能主动反馈结果。
这几个问题导致感觉使用本地部署的模型在接入cc或者openclaw后基本都无法正常使用,本地部署是不是还是得部署参数更大的模型才能有一定的效果。像26b左右的参数模型基本上只有单纯的聊天功能

