突然在想 理论上如果人数足够 是不是可以租B200啥的来跑Kimi-K2.6
- 内容介绍
- 文章标签
- 相关推荐
如题,看到了站里富可敌国的想法 突发奇想
四张卡15刀每小时 不过冷启动也要不少时间
VS 6.25刀每小时 不过可以轻松scale up/down 温启动十几分钟
--【壹】--:
主要是学校的卡难抢(
全校抢三台8卡H20,显存完全共享
八卡全空的概率太低了
之前假期卡比较空闲的时候玩过一段时间 效果还可以
--【贰】--:
我只能说很卡,因为sm120指令集还没有适配,唉
--【叁】--:
有开源的部署方案可以提供类似厂商的那种缓存机制吗
--【肆】--:
infra干不过大厂的,单论单位token成本不可能更低
看看要推好一个模型要考虑些什么: Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs - LMSYS Blog | LMSYS Org
--【伍】--:
按照现在的价格来说,虽然大家都在骂coding plan不当人,但仅是因为买了以后服务不是非常稳定。
骂归骂,coding plan厂商确实是亏钱
自部署的性价比真打不过coding plan
--【陆】--:
LiteLLM 自带缓存功能,多种方式,包括两种语义的方案
--【柒】--:
维护成本感觉也不小,而且卡的数量是有限的,也做不大。
--【捌】--:
基本上也是奔着稳定性&吞吐量去的了感觉
如果这方面不算很重要 那coding plan还是更值得一些
--【玖】--:
嘛也确实 自己玩的最大规模也只试过vllm 8卡TP
EP和pd disaggregation完全没尝试过
CUDA的算子和其他各种部分应该也有不少优化空间
毕竟只是个设想(
--【拾】--:
如果这样能赚钱的话,模型厂商唯一要做的事就是买卡了
--【拾壹】--:
应该回不了本,四张卡跑 kimi-k2.6 只能 fp4 量化,支持 5 人并发,再多就要排队了
--【拾贰】--:
按照我的理解,模型的定价基本上是按照显卡的单位时间的折旧价格和单位时间的 token 产量算出来的,考虑到模型厂有推理性能优化加成,所以不一定能打得过模型厂的定价
--【拾叁】--:
?骂coding plan是觉得厂商不当人是因为不稳定,不透明,动不动涨价。
但是coding plan是亏钱的是无疑的,你自己部署只会更贵更不稳定
--【拾肆】--:
有看到过一个LMCache,GitHub - LMCache/LMCache: Supercharge Your LLM with the Fastest KV Cache Layer · GitHub
不过感觉和大规模的KV Cache缓存还是有不少区别的
--【拾伍】--:
可以,净亏
https://linux.do/t/topic/1983846
如题,看到了站里富可敌国的想法 突发奇想
四张卡15刀每小时 不过冷启动也要不少时间
VS 6.25刀每小时 不过可以轻松scale up/down 温启动十几分钟
--【壹】--:
主要是学校的卡难抢(
全校抢三台8卡H20,显存完全共享
八卡全空的概率太低了
之前假期卡比较空闲的时候玩过一段时间 效果还可以
--【贰】--:
我只能说很卡,因为sm120指令集还没有适配,唉
--【叁】--:
有开源的部署方案可以提供类似厂商的那种缓存机制吗
--【肆】--:
infra干不过大厂的,单论单位token成本不可能更低
看看要推好一个模型要考虑些什么: Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs - LMSYS Blog | LMSYS Org
--【伍】--:
按照现在的价格来说,虽然大家都在骂coding plan不当人,但仅是因为买了以后服务不是非常稳定。
骂归骂,coding plan厂商确实是亏钱
自部署的性价比真打不过coding plan
--【陆】--:
LiteLLM 自带缓存功能,多种方式,包括两种语义的方案
--【柒】--:
维护成本感觉也不小,而且卡的数量是有限的,也做不大。
--【捌】--:
基本上也是奔着稳定性&吞吐量去的了感觉
如果这方面不算很重要 那coding plan还是更值得一些
--【玖】--:
嘛也确实 自己玩的最大规模也只试过vllm 8卡TP
EP和pd disaggregation完全没尝试过
CUDA的算子和其他各种部分应该也有不少优化空间
毕竟只是个设想(
--【拾】--:
如果这样能赚钱的话,模型厂商唯一要做的事就是买卡了
--【拾壹】--:
应该回不了本,四张卡跑 kimi-k2.6 只能 fp4 量化,支持 5 人并发,再多就要排队了
--【拾贰】--:
按照我的理解,模型的定价基本上是按照显卡的单位时间的折旧价格和单位时间的 token 产量算出来的,考虑到模型厂有推理性能优化加成,所以不一定能打得过模型厂的定价
--【拾叁】--:
?骂coding plan是觉得厂商不当人是因为不稳定,不透明,动不动涨价。
但是coding plan是亏钱的是无疑的,你自己部署只会更贵更不稳定
--【拾肆】--:
有看到过一个LMCache,GitHub - LMCache/LMCache: Supercharge Your LLM with the Fastest KV Cache Layer · GitHub
不过感觉和大规模的KV Cache缓存还是有不少区别的
--【拾伍】--:
可以,净亏
https://linux.do/t/topic/1983846

