最低参数量多大的本地模型,才能完整地背诵《滕王阁序》呢?
- 内容介绍
- 文章标签
- 相关推荐
当然不能联网
其实这个测试是噩梦。对于骈文来说,每一个字都是一个词元的,他妈的
不知道现在哪些开源模型能实现背诵无误?
Image_1775408923885_4431600×2133 305 KB
97199e288eefe6d6dd6714981aa96661_7201080×2532 359 KB
网友解答:--【壹】--:
我现在就是想找现行的开源模型,能基本不出错背出《滕王阁序》的最小参数量的模型。
--【贰】--:
没啥可说的,原理咱们都明白。我也喜欢用这个来测试
--【叁】--:
现在大部分模型都是偏理科的,要训练一个文科模型
--【肆】--:
如果5次一次成功算吗?还是要成功率80%算?
--【伍】--:
为什么你要让模型背这个 这只能说明训练的时候背过
--【陆】--:
见微知著而已 这篇肯定比将近酒冷门吧
--【柒】--:
别这样,白给老师别这样,肯定不是数据集只放这个
--【捌】--:
放宽条件,其实第一次背得错得离谱,后面就很难矫正吧
--【玖】--:
其实如果不额外洗数据的话基本上都能背,不是能力问题。而是避嫌等因素
--【拾】--:
理论上1m就行,数据集里面只放滕王阁序 但是真要说 其实0.几都可以
--【拾壹】--:
你这其实很难说多少 qwen3.54b这种小模型肯定是很多数据都有 他不是专攻某一项的 比如弄个小模型专攻古文这种 可能也就1b 给滕王阁序和一堆古文弄到滚瓜烂熟没啥问题
--【拾贰】--:
不用想了,有人测过了,gemma 4 全系列训练的文本都被洗过,任何名著都无法完整背出来,只会输出同意思的文本,我估计是谷歌为了防止版权纠纷,就全洗了一遍
--【拾叁】--:
背一个没意义,要测一整个诗词的数据集
--【拾肆】--:
把精力放在中文能力上,会让模型的能力非常局限,影响别的能力,厂商一般不会做
多训练coding 和 工具调用能力才能让模型更通用
--【拾伍】--:
估计也是怕引起版权纠纷吧
--【拾陆】--:
是的,就是好奇在不特化的情况下,到底有没有能背出来的
--【拾柒】--:
看来小模型做这个是真的不现实啊
--【拾捌】--:
image1230×462 16 KB
我宣布gemma是个傻逼 你们都要去黑他
--【拾玖】--:
其实这个测试是噩梦。对于骈文来说,每一个字都是一个词元的,他妈的
当然不能联网
其实这个测试是噩梦。对于骈文来说,每一个字都是一个词元的,他妈的
不知道现在哪些开源模型能实现背诵无误?
Image_1775408923885_4431600×2133 305 KB
97199e288eefe6d6dd6714981aa96661_7201080×2532 359 KB
网友解答:--【壹】--:
我现在就是想找现行的开源模型,能基本不出错背出《滕王阁序》的最小参数量的模型。
--【贰】--:
没啥可说的,原理咱们都明白。我也喜欢用这个来测试
--【叁】--:
现在大部分模型都是偏理科的,要训练一个文科模型
--【肆】--:
如果5次一次成功算吗?还是要成功率80%算?
--【伍】--:
为什么你要让模型背这个 这只能说明训练的时候背过
--【陆】--:
见微知著而已 这篇肯定比将近酒冷门吧
--【柒】--:
别这样,白给老师别这样,肯定不是数据集只放这个
--【捌】--:
放宽条件,其实第一次背得错得离谱,后面就很难矫正吧
--【玖】--:
其实如果不额外洗数据的话基本上都能背,不是能力问题。而是避嫌等因素
--【拾】--:
理论上1m就行,数据集里面只放滕王阁序 但是真要说 其实0.几都可以
--【拾壹】--:
你这其实很难说多少 qwen3.54b这种小模型肯定是很多数据都有 他不是专攻某一项的 比如弄个小模型专攻古文这种 可能也就1b 给滕王阁序和一堆古文弄到滚瓜烂熟没啥问题
--【拾贰】--:
不用想了,有人测过了,gemma 4 全系列训练的文本都被洗过,任何名著都无法完整背出来,只会输出同意思的文本,我估计是谷歌为了防止版权纠纷,就全洗了一遍
--【拾叁】--:
背一个没意义,要测一整个诗词的数据集
--【拾肆】--:
把精力放在中文能力上,会让模型的能力非常局限,影响别的能力,厂商一般不会做
多训练coding 和 工具调用能力才能让模型更通用
--【拾伍】--:
估计也是怕引起版权纠纷吧
--【拾陆】--:
是的,就是好奇在不特化的情况下,到底有没有能背出来的
--【拾柒】--:
看来小模型做这个是真的不现实啊
--【拾捌】--:
image1230×462 16 KB
我宣布gemma是个傻逼 你们都要去黑他
--【拾玖】--:
其实这个测试是噩梦。对于骈文来说,每一个字都是一个词元的,他妈的

