突然在想 理论上如果人数足够 是不是可以租B200啥的来跑Kimi-K2.6

2026-04-29 10:592阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

如题,看到了站里富可敌国的想法 突发奇想
四张卡15刀每小时 不过冷启动也要不少时间
VS 6.25刀每小时 不过可以轻松scale up/down 温启动十几分钟

网友解答:
--【壹】--:

主要是学校的卡难抢(
全校抢三台8卡H20,显存完全共享
八卡全空的概率太低了

之前假期卡比较空闲的时候玩过一段时间 效果还可以


--【贰】--:

我只能说很卡,因为sm120指令集还没有适配,唉


--【叁】--:

有开源的部署方案可以提供类似厂商的那种缓存机制吗


--【肆】--:

infra干不过大厂的,单论单位token成本不可能更低

看看要推好一个模型要考虑些什么: Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs - LMSYS Blog | LMSYS Org


--【伍】--:

按照现在的价格来说,虽然大家都在骂coding plan不当人,但仅是因为买了以后服务不是非常稳定。

骂归骂,coding plan厂商确实是亏钱

自部署的性价比真打不过coding plan


--【陆】--:

LiteLLM 自带缓存功能,多种方式,包括两种语义的方案


--【柒】--:

维护成本感觉也不小,而且卡的数量是有限的,也做不大。

阅读全文
问题描述:

如题,看到了站里富可敌国的想法 突发奇想
四张卡15刀每小时 不过冷启动也要不少时间
VS 6.25刀每小时 不过可以轻松scale up/down 温启动十几分钟

网友解答:
--【壹】--:

主要是学校的卡难抢(
全校抢三台8卡H20,显存完全共享
八卡全空的概率太低了

之前假期卡比较空闲的时候玩过一段时间 效果还可以


--【贰】--:

我只能说很卡,因为sm120指令集还没有适配,唉


--【叁】--:

有开源的部署方案可以提供类似厂商的那种缓存机制吗


--【肆】--:

infra干不过大厂的,单论单位token成本不可能更低

看看要推好一个模型要考虑些什么: Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs - LMSYS Blog | LMSYS Org


--【伍】--:

按照现在的价格来说,虽然大家都在骂coding plan不当人,但仅是因为买了以后服务不是非常稳定。

骂归骂,coding plan厂商确实是亏钱

自部署的性价比真打不过coding plan


--【陆】--:

LiteLLM 自带缓存功能,多种方式,包括两种语义的方案


--【柒】--:

维护成本感觉也不小,而且卡的数量是有限的,也做不大。

阅读全文