突然在想理论上如果人数足够是不是可以租B200啥的来跑Kimi-K2.6

2026-04-29 10:593阅读0评论SEO问题

内容介绍
文章标签
相关推荐

问题描述：

如题，看到了站里富可敌国的想法突发奇想
四张卡15刀每小时不过冷启动也要不少时间
VS 6.25刀每小时不过可以轻松scale up/down 温启动十几分钟

网友解答：

--【壹】--：

主要是学校的卡难抢（
全校抢三台8卡H20，显存完全共享
八卡全空的概率太低了

之前假期卡比较空闲的时候玩过一段时间效果还可以

--【贰】--：

我只能说很卡，因为sm120指令集还没有适配，唉

--【叁】--：

有开源的部署方案可以提供类似厂商的那种缓存机制吗

--【肆】--：

infra干不过大厂的，单论单位token成本不可能更低

看看要推好一个模型要考虑些什么： Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs - LMSYS Blog | LMSYS Org

--【伍】--：

按照现在的价格来说，虽然大家都在骂coding plan不当人，但仅是因为买了以后服务不是非常稳定。

骂归骂，coding plan厂商确实是亏钱

自部署的性价比真打不过coding plan

--【陆】--：

LiteLLM 自带缓存功能，多种方式，包括两种语义的方案

--【柒】--：

维护成本感觉也不小，而且卡的数量是有限的，也做不大。

--【捌】--：

基本上也是奔着稳定性&吞吐量去的了感觉
如果这方面不算很重要那coding plan还是更值得一些

--【玖】--：

嘛也确实自己玩的最大规模也只试过vllm 8卡TP
EP和pd disaggregation完全没尝试过
CUDA的算子和其他各种部分应该也有不少优化空间

毕竟只是个设想（

--【拾】--：

如果这样能赚钱的话，模型厂商唯一要做的事就是买卡了

--【拾壹】--：

应该回不了本，四张卡跑 kimi-k2.6 只能 fp4 量化，支持 5 人并发，再多就要排队了

--【拾贰】--：

按照我的理解，模型的定价基本上是按照显卡的单位时间的折旧价格和单位时间的 token 产量算出来的，考虑到模型厂有推理性能优化加成，所以不一定能打得过模型厂的定价

--【拾叁】--：

？骂coding plan是觉得厂商不当人是因为不稳定，不透明，动不动涨价。

但是coding plan是亏钱的是无疑的，你自己部署只会更贵更不稳定

--【拾肆】--：

有看到过一个LMCache，GitHub - LMCache/LMCache: Supercharge Your LLM with the Fastest KV Cache Layer · GitHub
不过感觉和大规模的KV Cache缓存还是有不少区别的

--【拾伍】--：

可以，净亏
https://linux.do/t/topic/1983846

标签：人工智能纯水