大语言模型采样参数

2026-04-11 10:280阅读0评论SEO资源

问题描述：

模型采样参数

在使用 cherryStuidio 这类软件时，我们经常看到 Temperature 之类的可配置参数。我们可以调整这些参数来调整大语言模型的输出，其本质是通过调整模型的概率分布的采样策略。

我们以经典的 SoftMax 为例。

p_i = \frac{e^{z_i}}{\sum_{j=1}^{k}e^{z_j}}

Temperature 参数控制模型输出的随机性。
其原理是引用了参数 T > 0，改写 SoftMax 为

p_i = \frac{e^{\frac{z_i}{T}}}{\sum_{j=1}^{k}e^{\frac{z_j}{T}}}

当 T 变小时，分布更加陡峭，高概率 token 的权重优势放大，模型偏向生成更确定的内容。
当 T 变大时，分布跟加平缓，高概率 token 的权重优势被压缩，进而低概率 token 被选中的概率提升，模型更容易生成发散的内容。

Top-k 的原理是将所有 token 按概率分布从高到低排序，选出前 k 个 token，然后对这 k 个 token 的概率分布进行归一化处理。也就是说 Top‑k 采样只保留概率最高的 k 个 token，然后在这 k 个里面随机采样下一个 token，其余全部视为概率 0，不再考虑。

p^{'}_{i} = \frac{p_{i}}{\sum_{j\in{S}}{P_{j}}}

当 k 小时，候选 token 基本都是概率分布高的，模型输出更稳定，确定性高。
当 k 大时，候选 token 多，包含一些中低概率分布的 token，模型输出更多样。

问题描述：

我们以经典的 SoftMax 为例。

p_i = \frac{e^{z_i}}{\sum_{j=1}^{k}e^{z_j}}

Temperature 参数控制模型输出的随机性。
其原理是引用了参数 T > 0，改写 SoftMax 为

p_i = \frac{e^{\frac{z_i}{T}}}{\sum_{j=1}^{k}e^{\frac{z_j}{T}}}

p^{'}_{i} = \frac{p_{i}}{\sum_{j\in{S}}{P_{j}}}