有哪些原理支撑的常见采样方法?
- 内容介绍
- 文章标签
- 相关推荐
本文共计3948个文字,预计阅读时间需要16分钟。
不均衡数据集是指数据集中各类别分布不均匀,存在类别间数量差异较大的数据集,如1:100或1:1000的比例。在训练集中这种不均衡的分布会影响机器学习算法,可能导致对少数类别完全忽视,甚至产生忽略少数类别的问题。
不平衡数据集是指类别分布严重偏斜的数据集,例如少数类与多数类的样本比例为 1:100 或 1:1000。
训练集中的这种偏差会影响许多机器学习算法,甚至导致完全忽略少数类,容易导致模型过拟合,泛化能力差。
所以,针对类别分布不均衡的数据集,一般会采取采样的方式,使得类别分布相对均衡,提升模型泛化能力。
下面介绍几种常见的采样方法及其原理,均是基于imbalanced-learn的实现:
随机采样:
- 随机过采样:从少数类中随机选择示例,并进行替换,然后将它们添加到训练数据集中;
- 随机欠采样:从多数类中随机选择示例,并将它们从训练数据集中删除;
朴素重采样,对数据没有任何假设,也没有使用启发式方法。所以,易于实现且执行速度快,这对于非常大和复杂的数据集来说是ok的。
需注意的是,对类分布的更改仅适用于训练数据集,目的是优化模型的拟合;重采样不适用于评估模型性能的测试集。
这种技术对于受偏态分布影响并且给定类的多个重复示例会影响模型拟合的机器学习算法非常有效。
本文共计3948个文字,预计阅读时间需要16分钟。
不均衡数据集是指数据集中各类别分布不均匀,存在类别间数量差异较大的数据集,如1:100或1:1000的比例。在训练集中这种不均衡的分布会影响机器学习算法,可能导致对少数类别完全忽视,甚至产生忽略少数类别的问题。
不平衡数据集是指类别分布严重偏斜的数据集,例如少数类与多数类的样本比例为 1:100 或 1:1000。
训练集中的这种偏差会影响许多机器学习算法,甚至导致完全忽略少数类,容易导致模型过拟合,泛化能力差。
所以,针对类别分布不均衡的数据集,一般会采取采样的方式,使得类别分布相对均衡,提升模型泛化能力。
下面介绍几种常见的采样方法及其原理,均是基于imbalanced-learn的实现:
随机采样:
- 随机过采样:从少数类中随机选择示例,并进行替换,然后将它们添加到训练数据集中;
- 随机欠采样:从多数类中随机选择示例,并将它们从训练数据集中删除;
朴素重采样,对数据没有任何假设,也没有使用启发式方法。所以,易于实现且执行速度快,这对于非常大和复杂的数据集来说是ok的。
需注意的是,对类分布的更改仅适用于训练数据集,目的是优化模型的拟合;重采样不适用于评估模型性能的测试集。
这种技术对于受偏态分布影响并且给定类的多个重复示例会影响模型拟合的机器学习算法非常有效。

