你们说,DeepSeek V4会搞蒸馏小模型吗
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
--【壹】--:
--【贰】--:
--【叁】--:
去年DeepSeek R1出的时候,还出了好几个蒸馏小模型,基座是qwen2.5和llama3,现在v4也有思维链,大概不会有R2了,正好前端时间qwen3.5和qwen3.6出了,不知道会不会继续搞蒸馏小模型,当然最好是直接拿v4 pro做个小模型
网友解答:--【壹】--:
是官方的,现在抱抱脸上deepseek仓库里还能下到
--【贰】--:
那当时好像也不是deepseek官方蒸馏出来的吧
--【叁】--:
估计不会了,之前是因为R1 首次开源思维链,比较有突破性,可以给这些小模型赋能。 现在的话,qwen小模型也挺强的了,没有这个必要了
问题描述:
--【壹】--:
--【贰】--:
--【叁】--:
去年DeepSeek R1出的时候,还出了好几个蒸馏小模型,基座是qwen2.5和llama3,现在v4也有思维链,大概不会有R2了,正好前端时间qwen3.5和qwen3.6出了,不知道会不会继续搞蒸馏小模型,当然最好是直接拿v4 pro做个小模型
网友解答:--【壹】--:
是官方的,现在抱抱脸上deepseek仓库里还能下到
--【贰】--:
那当时好像也不是deepseek官方蒸馏出来的吧
--【叁】--:
估计不会了,之前是因为R1 首次开源思维链,比较有突破性,可以给这些小模型赋能。 现在的话,qwen小模型也挺强的了,没有这个必要了

