gpt 干活时竟然出现广告乱码?

2026-04-11 10:180阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

用 claude code + gpt-5.4 干活时竟然出现下面的东西,是模型污染了吗?
图片2252×573 32.1 KB

网友解答:
--【壹】--:

老生常谈的问题了,gpt的中文语料库污染,不过只在claw的对话中见过,cc里还没注意过。


--【贰】--: gpt4o的tokenizer被中文垃圾语料污染严重,充斥着各种小广告 资源荟萃
这次gpt4o的更新带来了大幅降价,其中一部分功劳就在于全新的分词器,现在它倾向于将非英文语言的句子拆分为更长的词组,比如原来会分成17个词的句子,现在只会分成12个词,但是代价呢。。。x上有博主提取出新分词器中最长的前100个词,发现全部是小广告的形状 [image] [image] [image]

--【叁】--:

不止gpt,用glm和claude的时候都遇到这种问题了,目前似乎没办法解决。


--【肆】--:

我也出现了, 不清楚原因, 我在仓库也没有看到


--【伍】--:

语料库污染,忽略就行了

image478×599 66.8 KB

问题描述:

用 claude code + gpt-5.4 干活时竟然出现下面的东西,是模型污染了吗?
图片2252×573 32.1 KB

网友解答:
--【壹】--:

老生常谈的问题了,gpt的中文语料库污染,不过只在claw的对话中见过,cc里还没注意过。


--【贰】--: gpt4o的tokenizer被中文垃圾语料污染严重,充斥着各种小广告 资源荟萃
这次gpt4o的更新带来了大幅降价,其中一部分功劳就在于全新的分词器,现在它倾向于将非英文语言的句子拆分为更长的词组,比如原来会分成17个词的句子,现在只会分成12个词,但是代价呢。。。x上有博主提取出新分词器中最长的前100个词,发现全部是小广告的形状 [image] [image] [image]

--【叁】--:

不止gpt,用glm和claude的时候都遇到这种问题了,目前似乎没办法解决。


--【肆】--:

我也出现了, 不清楚原因, 我在仓库也没有看到


--【伍】--:

语料库污染,忽略就行了

image478×599 66.8 KB