局域网ollama vllm部署模型,然后cc switch可以直接接入么

2026-04-11 10:401阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

image1575×740 91.4 KB

请教各位大佬,
如图:本地部署的gemma4 是可以xxxx/v1/chat/completions跑通的,但是接到cc switch 要么报错,要么卡着没反应,症状如下:
最开始报错指定工具啥的,
7ab0650d13652e324dc1211adec9a2851210×420 18.8 KB
问了genimi,改了env配置,
image1011×820 70 KB

然后又继续报错
500 {“type”:“error”,“error”:{“type”:“internal_error”,“message”:"max_completion_tokens=32000cannot be greater than max_model_len=max_total_tokens=4096. Please request fewer output tokens.
按指引我去vllm那边从–max-model-len 32768 改到65000,

现在claude问他问题就 不回答了,python那边问也要等这边esc退出后才能秒回
我再去修改了env,变成最简的如下图,他都是卡着没反应,
image880×371 36.3 KB
我这边cc switch 代理开着 整流器开着
image431×239 10.5 KB
,api格式轮着都试过,都是一样,消息发过去没反应

最后感谢大佬们指点

网友解答:
--【壹】--: North_warm:

v1/messages

image803×357 23.7 KB
ip:端口 + v1/messages 好像也不行 而且py测试,本地ollma是通的

但是临时生成的文件没看到代理,不是说openai要代理么,不知道是不是这里出差


--【贰】--:

为什么不用LM Studio? ollama,bug有点多的


--【叁】--:

升级或者降级一下CC switch 或者用 ZFC。我也是用一直用的ollama,后面下决心换的LM Studio,发现之前我真的过着什么苦日子。


--【肆】--:

对啊,我第一个就是选他,因为python那边时这个格式,claude本地代理也开了,各种连不上。


--【伍】--:

CC switch可以webdrv 存档,这个不错。
然后ollama是不用的时候他会释放资源,今天第一次接触vllm,它是一上来就霸占显存,除非退出。
你说的LM Studio我去看看


--【陆】--:

claude 连接vllm,试试用用v1/messages,我部署过一次qwen3.5 成功了


--【柒】--:

ollama newapi 这么用的 接入的openclaw和cc都可以


--【捌】--: 海木:

最后感谢大佬们指点

就是上下文不够


--【玖】--:

本地搭个newapi不行么


--【拾】--:

LM STUDIO确实可以,自带模型下载加速,模型配置和加载也很方便


--【拾壹】--:

我们单位也有new api,然后他们就是 http://xxx:3000 ,然后我带v1 不行,不带v1也不行,三个api格式试了也不行。 基本是两种 Cannot read properties of undefined (reading ‘input_tokens’) 或者 There’s an issue with the selected model (qwen/qwen3.5-122b-a10b). It may not exist or you may not have access to it. Run /model to pick a different model.


--【拾贰】--:

解决了吗?同样的问题?是不是要先搭new API呀?


--【拾叁】--:

标题是举了个例子(针对自己本地部署的情况)
实际上我是有一堆模型在ollama上,今天小伙伴在vllm上布置了 gemma4,据说效果比得上 300b+的那个千问3.5
我就想着接cc switch试试。哎,实际上我nvida也连不上,去github也看了别人的提问和解决方法,各种照做尝试就是不行,我怀疑是不是我的cc sw有问题
然后昨天笔记本ubuntu也装了这个版本,一样不行(而且大部分佬们贡献的公益站 都连不上 )


--【拾肆】--:

谢谢 回去试下


--【拾伍】--: 海木:

/v1/chat/completions

这个接口不是这个选项吗?
image1096×241 12.6 KB


--【拾陆】--:

其实就是上下文的问题,像CC这种上下文一轮就吃你几万Token 但是本地部署默认基本上之前8k现在2w左右上下文


--【拾柒】--:

image1920×952 189 KB
显存有点扛不住。。。如果设最大


--【拾捌】--:

apiurl填


--【拾玖】--:

目前测试是这样可以通的
图片902×632 47.8 KB

图片857×415 19.3 KB
llama-server -m gemma-4-26B-A4B-it-Q4_K_M.gguf --host 0.0.0.0 --port 8123 --ctx-size 200000 --n-gpu-layers 999 --threads 64 --parallel 1
带上v1等好像都不通

标签:快问快答
问题描述:

image1575×740 91.4 KB

请教各位大佬,
如图:本地部署的gemma4 是可以xxxx/v1/chat/completions跑通的,但是接到cc switch 要么报错,要么卡着没反应,症状如下:
最开始报错指定工具啥的,
7ab0650d13652e324dc1211adec9a2851210×420 18.8 KB
问了genimi,改了env配置,
image1011×820 70 KB

然后又继续报错
500 {“type”:“error”,“error”:{“type”:“internal_error”,“message”:"max_completion_tokens=32000cannot be greater than max_model_len=max_total_tokens=4096. Please request fewer output tokens.
按指引我去vllm那边从–max-model-len 32768 改到65000,

现在claude问他问题就 不回答了,python那边问也要等这边esc退出后才能秒回
我再去修改了env,变成最简的如下图,他都是卡着没反应,
image880×371 36.3 KB
我这边cc switch 代理开着 整流器开着
image431×239 10.5 KB
,api格式轮着都试过,都是一样,消息发过去没反应

最后感谢大佬们指点

网友解答:
--【壹】--: North_warm:

v1/messages

image803×357 23.7 KB
ip:端口 + v1/messages 好像也不行 而且py测试,本地ollma是通的

但是临时生成的文件没看到代理,不是说openai要代理么,不知道是不是这里出差


--【贰】--:

为什么不用LM Studio? ollama,bug有点多的


--【叁】--:

升级或者降级一下CC switch 或者用 ZFC。我也是用一直用的ollama,后面下决心换的LM Studio,发现之前我真的过着什么苦日子。


--【肆】--:

对啊,我第一个就是选他,因为python那边时这个格式,claude本地代理也开了,各种连不上。


--【伍】--:

CC switch可以webdrv 存档,这个不错。
然后ollama是不用的时候他会释放资源,今天第一次接触vllm,它是一上来就霸占显存,除非退出。
你说的LM Studio我去看看


--【陆】--:

claude 连接vllm,试试用用v1/messages,我部署过一次qwen3.5 成功了


--【柒】--:

ollama newapi 这么用的 接入的openclaw和cc都可以


--【捌】--: 海木:

最后感谢大佬们指点

就是上下文不够


--【玖】--:

本地搭个newapi不行么


--【拾】--:

LM STUDIO确实可以,自带模型下载加速,模型配置和加载也很方便


--【拾壹】--:

我们单位也有new api,然后他们就是 http://xxx:3000 ,然后我带v1 不行,不带v1也不行,三个api格式试了也不行。 基本是两种 Cannot read properties of undefined (reading ‘input_tokens’) 或者 There’s an issue with the selected model (qwen/qwen3.5-122b-a10b). It may not exist or you may not have access to it. Run /model to pick a different model.


--【拾贰】--:

解决了吗?同样的问题?是不是要先搭new API呀?


--【拾叁】--:

标题是举了个例子(针对自己本地部署的情况)
实际上我是有一堆模型在ollama上,今天小伙伴在vllm上布置了 gemma4,据说效果比得上 300b+的那个千问3.5
我就想着接cc switch试试。哎,实际上我nvida也连不上,去github也看了别人的提问和解决方法,各种照做尝试就是不行,我怀疑是不是我的cc sw有问题
然后昨天笔记本ubuntu也装了这个版本,一样不行(而且大部分佬们贡献的公益站 都连不上 )


--【拾肆】--:

谢谢 回去试下


--【拾伍】--: 海木:

/v1/chat/completions

这个接口不是这个选项吗?
image1096×241 12.6 KB


--【拾陆】--:

其实就是上下文的问题,像CC这种上下文一轮就吃你几万Token 但是本地部署默认基本上之前8k现在2w左右上下文


--【拾柒】--:

image1920×952 189 KB
显存有点扛不住。。。如果设最大


--【拾捌】--:

apiurl填


--【拾玖】--:

目前测试是这样可以通的
图片902×632 47.8 KB

图片857×415 19.3 KB
llama-server -m gemma-4-26B-A4B-it-Q4_K_M.gguf --host 0.0.0.0 --port 8123 --ctx-size 200000 --n-gpu-layers 999 --threads 64 --parallel 1
带上v1等好像都不通

标签:快问快答