如何轻松应对机器学习中的样本不平衡问题?
- 内容介绍
- 文章标签
- 相关推荐
本文共计3679个文字,预计阅读时间需要15分钟。
在银行业,判断一个新客户是否会违约,通常不违约的人与违约的人的比例是99:1。真正违约的人其实是非常少数的。在这种分类状态下,即便是最简便的模型也不做什么,全都将所有人当作不违约的。
在银行要判断一个"新客户是否会违约",通常不违约的人VS违约的人会是99:1的比例,真正违约的人 其实是非常少的。这种分类状况下,即便模型什么也不做,全把所有人都当成不会违约的人,正确率也能有99%, 这使得模型评估指标变得毫无意义,根本无法达到我们的"要识别出会违约的人"的建模目的。
像这样样本不均衡等例子在生活中随处可见。通常出现在异常检测、客户流失、罕见时间分析、发生低频率事件等场景,具体如垃圾邮件等识别,信用卡征信问题、欺诈交易检测、工厂中不良品检测等。在处理诸如此类的样本不均衡的任务中,使用常规方法并不能达到实际业务需求,正确且尽可能多捕获少数类样本。因为样本不均衡会使得分类模型存在很严重的偏向性。
本文中,介绍了在机器学习中样本不平衡处理策略及常用方法和工具。
文末提供技术交流群
样本不平衡分类
数据集中各个类别的样本数量极不均衡,从数据规模上可分为:
- 大数据分布不均衡。整体数据规模大,小样本类的占比较少,但小样本也覆盖了大部分或全部特征。
- 小数据分布不均衡。整体数据规模小,少数样本比例的分类数量也少,导致特征分布严重不均衡。
样本分布不均衡在于不同类别间的样本比例差异,导致很难从样本中提取规律。一般超过10倍就需要引起注意,20倍就一定要处理了。
样本不平衡处理策略
扩大数据集
样本不平衡时,可以增加包含一定比例小类样本数据以扩大数据集,更多的数据往往战胜更好的算法。
本文共计3679个文字,预计阅读时间需要15分钟。
在银行业,判断一个新客户是否会违约,通常不违约的人与违约的人的比例是99:1。真正违约的人其实是非常少数的。在这种分类状态下,即便是最简便的模型也不做什么,全都将所有人当作不违约的。
在银行要判断一个"新客户是否会违约",通常不违约的人VS违约的人会是99:1的比例,真正违约的人 其实是非常少的。这种分类状况下,即便模型什么也不做,全把所有人都当成不会违约的人,正确率也能有99%, 这使得模型评估指标变得毫无意义,根本无法达到我们的"要识别出会违约的人"的建模目的。
像这样样本不均衡等例子在生活中随处可见。通常出现在异常检测、客户流失、罕见时间分析、发生低频率事件等场景,具体如垃圾邮件等识别,信用卡征信问题、欺诈交易检测、工厂中不良品检测等。在处理诸如此类的样本不均衡的任务中,使用常规方法并不能达到实际业务需求,正确且尽可能多捕获少数类样本。因为样本不均衡会使得分类模型存在很严重的偏向性。
本文中,介绍了在机器学习中样本不平衡处理策略及常用方法和工具。
文末提供技术交流群
样本不平衡分类
数据集中各个类别的样本数量极不均衡,从数据规模上可分为:
- 大数据分布不均衡。整体数据规模大,小样本类的占比较少,但小样本也覆盖了大部分或全部特征。
- 小数据分布不均衡。整体数据规模小,少数样本比例的分类数量也少,导致特征分布严重不均衡。
样本分布不均衡在于不同类别间的样本比例差异,导致很难从样本中提取规律。一般超过10倍就需要引起注意,20倍就一定要处理了。
样本不平衡处理策略
扩大数据集
样本不平衡时,可以增加包含一定比例小类样本数据以扩大数据集,更多的数据往往战胜更好的算法。

