局域网ollama vllm部署模型,然后cc switch可以直接接入么
- 内容介绍
- 文章标签
- 相关推荐
image1575×740 91.4 KB
请教各位大佬,
如图:本地部署的gemma4 是可以xxxx/v1/chat/completions跑通的,但是接到cc switch 要么报错,要么卡着没反应,症状如下:
最开始报错指定工具啥的,
7ab0650d13652e324dc1211adec9a2851210×420 18.8 KB
问了genimi,改了env配置,
image1011×820 70 KB
然后又继续报错
500 {“type”:“error”,“error”:{“type”:“internal_error”,“message”:"max_completion_tokens=32000cannot be greater than max_model_len=max_total_tokens=4096. Please request fewer output tokens.
按指引我去vllm那边从–max-model-len 32768 改到65000,
现在claude问他问题就 不回答了,python那边问也要等这边esc退出后才能秒回
我再去修改了env,变成最简的如下图,他都是卡着没反应,
image880×371 36.3 KB
我这边cc switch 代理开着 整流器开着
image431×239 10.5 KB
,api格式轮着都试过,都是一样,消息发过去没反应
最后感谢大佬们指点
网友解答:--【壹】--: North_warm:
v1/messages
image803×357 23.7 KB
ip:端口 + v1/messages 好像也不行 而且py测试,本地ollma是通的
但是临时生成的文件没看到代理,不是说openai要代理么,不知道是不是这里出差
--【贰】--:
为什么不用LM Studio? ollama,bug有点多的
--【叁】--:
升级或者降级一下CC switch 或者用 ZFC。我也是用一直用的ollama,后面下决心换的LM Studio,发现之前我真的过着什么苦日子。
--【肆】--:
对啊,我第一个就是选他,因为python那边时这个格式,claude本地代理也开了,各种连不上。
--【伍】--:
CC switch可以webdrv 存档,这个不错。
然后ollama是不用的时候他会释放资源,今天第一次接触vllm,它是一上来就霸占显存,除非退出。
你说的LM Studio我去看看
--【陆】--:
claude 连接vllm,试试用用v1/messages,我部署过一次qwen3.5 成功了
--【柒】--:
ollama newapi 这么用的 接入的openclaw和cc都可以
--【捌】--: 海木:
最后感谢大佬们指点
就是上下文不够
--【玖】--:
本地搭个newapi不行么
--【拾】--:
LM STUDIO确实可以,自带模型下载加速,模型配置和加载也很方便
--【拾壹】--:
我们单位也有new api,然后他们就是 http://xxx:3000 ,然后我带v1 不行,不带v1也不行,三个api格式试了也不行。 基本是两种 Cannot read properties of undefined (reading ‘input_tokens’) 或者 There’s an issue with the selected model (qwen/qwen3.5-122b-a10b). It may not exist or you may not have access to it. Run /model to pick a different model.
--【拾贰】--:
解决了吗?同样的问题?是不是要先搭new API呀?
--【拾叁】--:
标题是举了个例子(针对自己本地部署的情况)
实际上我是有一堆模型在ollama上,今天小伙伴在vllm上布置了 gemma4,据说效果比得上 300b+的那个千问3.5
我就想着接cc switch试试。哎,实际上我nvida也连不上,去github也看了别人的提问和解决方法,各种照做尝试就是不行,我怀疑是不是我的cc sw有问题
然后昨天笔记本ubuntu也装了这个版本,一样不行(而且大部分佬们贡献的公益站 都连不上 )
--【拾肆】--:
谢谢 回去试下
--【拾伍】--: 海木:
/v1/chat/completions
这个接口不是这个选项吗?
image1096×241 12.6 KB
--【拾陆】--:
其实就是上下文的问题,像CC这种上下文一轮就吃你几万Token 但是本地部署默认基本上之前8k现在2w左右上下文
--【拾柒】--:
image1920×952 189 KB
显存有点扛不住。。。如果设最大
--【拾捌】--:
apiurl填
--【拾玖】--:
目前测试是这样可以通的
图片902×632 47.8 KB
图片857×415 19.3 KB
llama-server -m gemma-4-26B-A4B-it-Q4_K_M.gguf --host 0.0.0.0 --port 8123 --ctx-size 200000 --n-gpu-layers 999 --threads 64 --parallel 1
带上v1等好像都不通
image1575×740 91.4 KB
请教各位大佬,
如图:本地部署的gemma4 是可以xxxx/v1/chat/completions跑通的,但是接到cc switch 要么报错,要么卡着没反应,症状如下:
最开始报错指定工具啥的,
7ab0650d13652e324dc1211adec9a2851210×420 18.8 KB
问了genimi,改了env配置,
image1011×820 70 KB
然后又继续报错
500 {“type”:“error”,“error”:{“type”:“internal_error”,“message”:"max_completion_tokens=32000cannot be greater than max_model_len=max_total_tokens=4096. Please request fewer output tokens.
按指引我去vllm那边从–max-model-len 32768 改到65000,
现在claude问他问题就 不回答了,python那边问也要等这边esc退出后才能秒回
我再去修改了env,变成最简的如下图,他都是卡着没反应,
image880×371 36.3 KB
我这边cc switch 代理开着 整流器开着
image431×239 10.5 KB
,api格式轮着都试过,都是一样,消息发过去没反应
最后感谢大佬们指点
网友解答:--【壹】--: North_warm:
v1/messages
image803×357 23.7 KB
ip:端口 + v1/messages 好像也不行 而且py测试,本地ollma是通的
但是临时生成的文件没看到代理,不是说openai要代理么,不知道是不是这里出差
--【贰】--:
为什么不用LM Studio? ollama,bug有点多的
--【叁】--:
升级或者降级一下CC switch 或者用 ZFC。我也是用一直用的ollama,后面下决心换的LM Studio,发现之前我真的过着什么苦日子。
--【肆】--:
对啊,我第一个就是选他,因为python那边时这个格式,claude本地代理也开了,各种连不上。
--【伍】--:
CC switch可以webdrv 存档,这个不错。
然后ollama是不用的时候他会释放资源,今天第一次接触vllm,它是一上来就霸占显存,除非退出。
你说的LM Studio我去看看
--【陆】--:
claude 连接vllm,试试用用v1/messages,我部署过一次qwen3.5 成功了
--【柒】--:
ollama newapi 这么用的 接入的openclaw和cc都可以
--【捌】--: 海木:
最后感谢大佬们指点
就是上下文不够
--【玖】--:
本地搭个newapi不行么
--【拾】--:
LM STUDIO确实可以,自带模型下载加速,模型配置和加载也很方便
--【拾壹】--:
我们单位也有new api,然后他们就是 http://xxx:3000 ,然后我带v1 不行,不带v1也不行,三个api格式试了也不行。 基本是两种 Cannot read properties of undefined (reading ‘input_tokens’) 或者 There’s an issue with the selected model (qwen/qwen3.5-122b-a10b). It may not exist or you may not have access to it. Run /model to pick a different model.
--【拾贰】--:
解决了吗?同样的问题?是不是要先搭new API呀?
--【拾叁】--:
标题是举了个例子(针对自己本地部署的情况)
实际上我是有一堆模型在ollama上,今天小伙伴在vllm上布置了 gemma4,据说效果比得上 300b+的那个千问3.5
我就想着接cc switch试试。哎,实际上我nvida也连不上,去github也看了别人的提问和解决方法,各种照做尝试就是不行,我怀疑是不是我的cc sw有问题
然后昨天笔记本ubuntu也装了这个版本,一样不行(而且大部分佬们贡献的公益站 都连不上 )
--【拾肆】--:
谢谢 回去试下
--【拾伍】--: 海木:
/v1/chat/completions
这个接口不是这个选项吗?
image1096×241 12.6 KB
--【拾陆】--:
其实就是上下文的问题,像CC这种上下文一轮就吃你几万Token 但是本地部署默认基本上之前8k现在2w左右上下文
--【拾柒】--:
image1920×952 189 KB
显存有点扛不住。。。如果设最大
--【拾捌】--:
apiurl填
--【拾玖】--:
目前测试是这样可以通的
图片902×632 47.8 KB
图片857×415 19.3 KB
llama-server -m gemma-4-26B-A4B-it-Q4_K_M.gguf --host 0.0.0.0 --port 8123 --ctx-size 200000 --n-gpu-layers 999 --threads 64 --parallel 1
带上v1等好像都不通

