如何用Python应对数据集中长尾词的不平衡问题?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2352个文字,预计阅读时间需要10分钟。
1.+ 数据不均衡:所谓的数据不均衡(imbalanced data)是指数据集中各个类别的数量分布不均衡;数据不均衡在现实业务中十分常见。例如,信用卡欺诈数据:99%都是正常数据,1%是欺诈数据。
1. 什么是数据不平衡
所谓的数据不平衡(imbalanced data)是指数据集中各个类别的数量分布不均衡;不平衡数据在现实任务中十分的常见。如
- 信用卡欺诈数据:99%都是正常的数据, 1%是欺诈数据
- 贷款逾期数据
不平衡数据一般是由于数据产生的原因导致的,类别少的样本通常是发生的频率低,需要很长的周期进行采集。
在机器学习任务(如分类问题)中,不平衡数据会导致训练的模型预测的结果会偏向于样本数量多的类别,这个时候除了要选择合适的评估指标外,想要提升模型的性能,就要对数据和模型做一些预处理。
处理数据不平衡的主要方法:
- 欠采样
- 过采样
- 综合采样
- 模型集成
调整类别权重或者样本权重
2. 数据不平衡处理方法
imbalanced-learn库提供了许多不平衡数据处理的方法,本文的例子都以imbalanced-learn库来实现。
本文共计2352个文字,预计阅读时间需要10分钟。
1.+ 数据不均衡:所谓的数据不均衡(imbalanced data)是指数据集中各个类别的数量分布不均衡;数据不均衡在现实业务中十分常见。例如,信用卡欺诈数据:99%都是正常数据,1%是欺诈数据。
1. 什么是数据不平衡
所谓的数据不平衡(imbalanced data)是指数据集中各个类别的数量分布不均衡;不平衡数据在现实任务中十分的常见。如
- 信用卡欺诈数据:99%都是正常的数据, 1%是欺诈数据
- 贷款逾期数据
不平衡数据一般是由于数据产生的原因导致的,类别少的样本通常是发生的频率低,需要很长的周期进行采集。
在机器学习任务(如分类问题)中,不平衡数据会导致训练的模型预测的结果会偏向于样本数量多的类别,这个时候除了要选择合适的评估指标外,想要提升模型的性能,就要对数据和模型做一些预处理。
处理数据不平衡的主要方法:
- 欠采样
- 过采样
- 综合采样
- 模型集成
调整类别权重或者样本权重
2. 数据不平衡处理方法
imbalanced-learn库提供了许多不平衡数据处理的方法,本文的例子都以imbalanced-learn库来实现。

