在tesla k80这张十年老卡上复现了一下谷歌的turboquant kv压缩
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
--【壹】--:
--【贰】--:
--【叁】--:
屏幕截图 2026-04-05 1639001110×783 27.6 KB
屏幕截图 2026-04-05 1648271445×868 106 KB
qwen3.5 9b q4km量化,256k上下文
他真的能跑起来,但是prefill读取一个200多k的代码就花了10分钟
最终思考速度3tokens/s
使用了tom那个魔改llama.cpp,整个编译过程出乎意料的顺利
网友解答:--【壹】--:
原来是这样 学习了新知识
--【贰】--:
改为单卡K80
token/s应该速度应该可以提升?
--【叁】--:
其实k80是一张双芯卡,使用plx桥接pcie连接
问题描述:
--【壹】--:
--【贰】--:
--【叁】--:
屏幕截图 2026-04-05 1639001110×783 27.6 KB
屏幕截图 2026-04-05 1648271445×868 106 KB
qwen3.5 9b q4km量化,256k上下文
他真的能跑起来,但是prefill读取一个200多k的代码就花了10分钟
最终思考速度3tokens/s
使用了tom那个魔改llama.cpp,整个编译过程出乎意料的顺利
网友解答:--【壹】--:
原来是这样 学习了新知识
--【贰】--:
改为单卡K80
token/s应该速度应该可以提升?
--【叁】--:
其实k80是一张双芯卡,使用plx桥接pcie连接

