JetBrains中AI调用本地ollama
- 内容介绍
- 文章标签
- 相关推荐
image2047×1295 258 KB
image701×680 27.3 KB
看样子这个JB指定是有点什么说法的。。我本地部署27B模型,CC里面美滋滋的用着很丝滑。偶然看到JB的AI支持第三方了,我就去冲了,结果直接给我32G显存拉满卡的动都动不了。。
Q1:
这个咋整,难道是姿势不对吗?有没有佬搞过的分享一下经验。。
Q2:
话说我在wsl里面的docker跑ollama,然后怎么可以使用这个共享GPU内存?
跪谢大佬们指条明路
网友解答:--【壹】--:
也还好啦,玩扫雷一样卡
--【贰】--:
上下文拉短一点。32g显存存不了完整230k上下文,会有一部分放在内存里面。我q4量化开100k是没什么问题的。
共享GPU内存就是走系统内存,显存装不下模型+kv cache就会用,用了之后直接速度从100toks降到10toks
--【叁】--:
image2059×1288 302 KB目前进展:
把上下文调成10,000后可以正常回我一句了。然后就继续卡着。看来JB还得再沉淀沉淀。。。
--【肆】--:
另外27b模型经常会自己陷入循环无限推理或者无限输出,不知道是什么原因。9b和35ba3b也有这个问题,但是出现的好像没27b那么频繁
--【伍】--:
你咋这么恐怖,硬件太强了,羡慕
--【陆】--:
就是说即使走了共享GPU内存,表现上只是内存那边的占用上涨,GPU这边的共享占用率是不变的吗?
--【柒】--:
目前还没有碰到无限循环的推理情况。。使用起来其实感觉还不错,主要是本地部署随便用,妈妈再也不用担心我的token不够用了
image2047×1295 258 KB
image701×680 27.3 KB
看样子这个JB指定是有点什么说法的。。我本地部署27B模型,CC里面美滋滋的用着很丝滑。偶然看到JB的AI支持第三方了,我就去冲了,结果直接给我32G显存拉满卡的动都动不了。。
Q1:
这个咋整,难道是姿势不对吗?有没有佬搞过的分享一下经验。。
Q2:
话说我在wsl里面的docker跑ollama,然后怎么可以使用这个共享GPU内存?
跪谢大佬们指条明路
网友解答:--【壹】--:
也还好啦,玩扫雷一样卡
--【贰】--:
上下文拉短一点。32g显存存不了完整230k上下文,会有一部分放在内存里面。我q4量化开100k是没什么问题的。
共享GPU内存就是走系统内存,显存装不下模型+kv cache就会用,用了之后直接速度从100toks降到10toks
--【叁】--:
image2059×1288 302 KB目前进展:
把上下文调成10,000后可以正常回我一句了。然后就继续卡着。看来JB还得再沉淀沉淀。。。
--【肆】--:
另外27b模型经常会自己陷入循环无限推理或者无限输出,不知道是什么原因。9b和35ba3b也有这个问题,但是出现的好像没27b那么频繁
--【伍】--:
你咋这么恐怖,硬件太强了,羡慕
--【陆】--:
就是说即使走了共享GPU内存,表现上只是内存那边的占用上涨,GPU这边的共享占用率是不变的吗?
--【柒】--:
目前还没有碰到无限循环的推理情况。。使用起来其实感觉还不错,主要是本地部署随便用,妈妈再也不用担心我的token不够用了

