局域网ollama vllm部署模型，然后cc switch可以直接接入么

2026-04-11 10:401阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

image1575×740 91.4 KB

请教各位大佬，
如图：本地部署的gemma4 是可以xxxx/v1/chat/completions跑通的，但是接到cc switch 要么报错，要么卡着没反应，症状如下：
最开始报错指定工具啥的，
7ab0650d13652e324dc1211adec9a2851210×420 18.8 KB
问了genimi，改了env配置，
image1011×820 70 KB

然后又继续报错
500 {“type”:“error”,“error”:{“type”:“internal_error”,“message”:"max_completion_tokens=32000cannot be greater than max_model_len=max_total_tokens=4096. Please request fewer output tokens.
按指引我去vllm那边从–max-model-len 32768 改到65000，

现在claude问他问题就不回答了，python那边问也要等这边esc退出后才能秒回
我再去修改了env，变成最简的如下图，他都是卡着没反应，
image880×371 36.3 KB
我这边cc switch 代理开着整流器开着
image431×239 10.5 KB
，api格式轮着都试过，都是一样，消息发过去没反应

最后感谢大佬们指点

网友解答：

--【壹】--： North_warm:

v1/messages

image803×357 23.7 KB
ip:端口 + v1/messages 好像也不行而且py测试，本地ollma是通的

但是临时生成的文件没看到代理，不是说openai要代理么，不知道是不是这里出差

--【贰】--：

为什么不用LM Studio？ ollama，bug有点多的

--【叁】--：

升级或者降级一下CC switch 或者用 ZFC。我也是用一直用的ollama，后面下决心换的LM Studio，发现之前我真的过着什么苦日子。

--【肆】--：

对啊，我第一个就是选他，因为python那边时这个格式，claude本地代理也开了，各种连不上。

--【伍】--：

CC switch可以webdrv 存档，这个不错。
然后ollama是不用的时候他会释放资源，今天第一次接触vllm，它是一上来就霸占显存，除非退出。
你说的LM Studio我去看看

--【陆】--：

claude 连接vllm，试试用用v1/messages,我部署过一次qwen3.5 成功了

--【柒】--：

ollama newapi 这么用的接入的openclaw和cc都可以

--【捌】--： 海木:

最后感谢大佬们指点

就是上下文不够

--【玖】--：

本地搭个newapi不行么

--【拾】--：

LM STUDIO确实可以，自带模型下载加速，模型配置和加载也很方便

--【拾壹】--：

我们单位也有new api，然后他们就是 http：//xxx:3000 ，然后我带v1 不行，不带v1也不行，三个api格式试了也不行。基本是两种 Cannot read properties of undefined (reading ‘input_tokens’) 或者 There’s an issue with the selected model (qwen/qwen3.5-122b-a10b). It may not exist or you may not have access to it. Run /model to pick a different model.

--【拾贰】--：

解决了吗？同样的问题？是不是要先搭new API呀？

--【拾叁】--：

标题是举了个例子（针对自己本地部署的情况）
实际上我是有一堆模型在ollama上，今天小伙伴在vllm上布置了 gemma4，据说效果比得上 300b+的那个千问3.5
我就想着接cc switch试试。哎，实际上我nvida也连不上，去github也看了别人的提问和解决方法，各种照做尝试就是不行，我怀疑是不是我的cc sw有问题
然后昨天笔记本ubuntu也装了这个版本，一样不行（而且大部分佬们贡献的公益站都连不上）

--【拾肆】--：

谢谢回去试下

--【拾伍】--： 海木:

/v1/chat/completions

这个接口不是这个选项吗？
image1096×241 12.6 KB

--【拾陆】--：

其实就是上下文的问题，像CC这种上下文一轮就吃你几万Token 但是本地部署默认基本上之前8k现在2w左右上下文

--【拾柒】--：

image1920×952 189 KB
显存有点扛不住。。。如果设最大

--【拾捌】--：

apiurl填

--【拾玖】--：

目前测试是这样可以通的
图片902×632 47.8 KB

图片857×415 19.3 KB
llama-server -m gemma-4-26B-A4B-it-Q4_K_M.gguf --host 0.0.0.0 --port 8123 --ctx-size 200000 --n-gpu-layers 999 --threads 64 --parallel 1
带上v1等好像都不通

标签：快问快答

问题描述：

image1575×740 91.4 KB

最后感谢大佬们指点

网友解答：

--【壹】--： North_warm:

v1/messages

image803×357 23.7 KB
ip:端口 + v1/messages 好像也不行而且py测试，本地ollma是通的

但是临时生成的文件没看到代理，不是说openai要代理么，不知道是不是这里出差

--【贰】--：

为什么不用LM Studio？ ollama，bug有点多的

--【叁】--：

升级或者降级一下CC switch 或者用 ZFC。我也是用一直用的ollama，后面下决心换的LM Studio，发现之前我真的过着什么苦日子。

--【肆】--：

对啊，我第一个就是选他，因为python那边时这个格式，claude本地代理也开了，各种连不上。

--【伍】--：

--【陆】--：

claude 连接vllm，试试用用v1/messages,我部署过一次qwen3.5 成功了

--【柒】--：

ollama newapi 这么用的接入的openclaw和cc都可以

--【捌】--： 海木:

最后感谢大佬们指点

就是上下文不够

--【玖】--：

本地搭个newapi不行么

--【拾】--：

LM STUDIO确实可以，自带模型下载加速，模型配置和加载也很方便

--【拾壹】--：

--【拾贰】--：

解决了吗？同样的问题？是不是要先搭new API呀？

--【拾叁】--：

--【拾肆】--：

谢谢回去试下

--【拾伍】--： 海木:

/v1/chat/completions

这个接口不是这个选项吗？
image1096×241 12.6 KB

--【拾陆】--：

其实就是上下文的问题，像CC这种上下文一轮就吃你几万Token 但是本地部署默认基本上之前8k现在2w左右上下文

--【拾柒】--：

image1920×952 189 KB
显存有点扛不住。。。如果设最大

--【拾捌】--：

apiurl填

--【拾玖】--：

目前测试是这样可以通的
图片902×632 47.8 KB

图片857×415 19.3 KB
llama-server -m gemma-4-26B-A4B-it-Q4_K_M.gguf --host 0.0.0.0 --port 8123 --ctx-size 200000 --n-gpu-layers 999 --threads 64 --parallel 1
带上v1等好像都不通

标签：快问快答

相关推荐

相关推荐