在tesla k80这张十年老卡上复现了一下谷歌的turboquant kv压缩

2026-04-11 11:520阅读0评论SEO问题

内容介绍
文章标签
相关推荐

问题描述：

屏幕截图 2026-04-05 1639001110×783 27.6 KB

屏幕截图 2026-04-05 1648271445×868 106 KB

qwen3.5 9b q4km量化，256k上下文

他真的能跑起来，但是prefill读取一个200多k的代码就花了10分钟

最终思考速度3tokens/s

使用了tom那个魔改llama.cpp,整个编译过程出乎意料的顺利

网友解答：

--【壹】--：

原来是这样学习了新知识

--【贰】--：

改为单卡K80

token/s应该速度应该可以提升？

--【叁】--：

其实k80是一张双芯卡，使用plx桥接pcie连接

标签：人工智能

问题描述：

屏幕截图 2026-04-05 1639001110×783 27.6 KB

屏幕截图 2026-04-05 1648271445×868 106 KB

qwen3.5 9b q4km量化，256k上下文

他真的能跑起来，但是prefill读取一个200多k的代码就花了10分钟

最终思考速度3tokens/s

使用了tom那个魔改llama.cpp,整个编译过程出乎意料的顺利

网友解答：

--【壹】--：

原来是这样学习了新知识

--【贰】--：

改为单卡K80

token/s应该速度应该可以提升？

--【叁】--：

其实k80是一张双芯卡，使用plx桥接pcie连接

标签：人工智能