你们说,DeepSeek V4会搞蒸馏小模型吗

2026-04-29 10:171阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

去年DeepSeek R1出的时候,还出了好几个蒸馏小模型,基座是qwen2.5和llama3,现在v4也有思维链,大概不会有R2了,正好前端时间qwen3.5和qwen3.6出了,不知道会不会继续搞蒸馏小模型,当然最好是直接拿v4 pro做个小模型

网友解答:
--【壹】--:

是官方的,现在抱抱脸上deepseek仓库里还能下到


--【贰】--:

那当时好像也不是deepseek官方蒸馏出来的吧


--【叁】--:

估计不会了,之前是因为R1 首次开源思维链,比较有突破性,可以给这些小模型赋能。 现在的话,qwen小模型也挺强的了,没有这个必要了

问题描述:

去年DeepSeek R1出的时候,还出了好几个蒸馏小模型,基座是qwen2.5和llama3,现在v4也有思维链,大概不会有R2了,正好前端时间qwen3.5和qwen3.6出了,不知道会不会继续搞蒸馏小模型,当然最好是直接拿v4 pro做个小模型

网友解答:
--【壹】--:

是官方的,现在抱抱脸上deepseek仓库里还能下到


--【贰】--:

那当时好像也不是deepseek官方蒸馏出来的吧


--【叁】--:

估计不会了,之前是因为R1 首次开源思维链,比较有突破性,可以给这些小模型赋能。 现在的话,qwen小模型也挺强的了,没有这个必要了