JetBrains中AI调用本地ollama

2026-04-11 14:400阅读0评论SEO教程

问题描述：

image2047×1295 258 KB

image701×680 27.3 KB

看样子这个JB指定是有点什么说法的。。我本地部署27B模型，CC里面美滋滋的用着很丝滑。偶然看到JB的AI支持第三方了，我就去冲了，结果直接给我32G显存拉满卡的动都动不了。。

Q1：
这个咋整，难道是姿势不对吗？有没有佬搞过的分享一下经验。。
Q2：
话说我在wsl里面的docker跑ollama，然后怎么可以使用这个共享GPU内存？

跪谢大佬们指条明路

网友解答：

--【壹】--：

也还好啦，玩扫雷一样卡

--【贰】--：

上下文拉短一点。32g显存存不了完整230k上下文，会有一部分放在内存里面。我q4量化开100k是没什么问题的。
共享GPU内存就是走系统内存，显存装不下模型+kv cache就会用，用了之后直接速度从100toks降到10toks

--【叁】--：

image2059×1288 302 KB目前进展：
把上下文调成10,000后可以正常回我一句了。然后就继续卡着。看来JB还得再沉淀沉淀。。。

--【肆】--：

另外27b模型经常会自己陷入循环无限推理或者无限输出，不知道是什么原因。9b和35ba3b也有这个问题，但是出现的好像没27b那么频繁

--【伍】--：

你咋这么恐怖，硬件太强了，羡慕

--【陆】--：

就是说即使走了共享GPU内存，表现上只是内存那边的占用上涨，GPU这边的共享占用率是不变的吗？

--【柒】--：

目前还没有碰到无限循环的推理情况。。使用起来其实感觉还不错，主要是本地部署随便用，妈妈再也不用担心我的token不够用了