在tesla k80这张十年老卡上复现了一下谷歌的turboquant kv压缩

2026-04-11 11:520阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

屏幕截图 2026-04-05 1639001110×783 27.6 KB

屏幕截图 2026-04-05 1648271445×868 106 KB

qwen3.5 9b q4km量化,256k上下文

他真的能跑起来,但是prefill读取一个200多k的代码就花了10分钟

最终思考速度3tokens/s

使用了tom那个魔改llama.cpp,整个编译过程出乎意料的顺利

网友解答:
--【壹】--:

原来是这样 学习了新知识


--【贰】--:

改为单卡K80

token/s应该速度应该可以提升?


--【叁】--:

其实k80是一张双芯卡,使用plx桥接pcie连接

标签:人工智能