在机器学习过程中,数据抽样技巧是否复杂多变?
- 内容介绍
- 文章标签
- 相关推荐
本文共计3528个文字,预计阅读时间需要15分钟。
在以下情况下可能需要使用抽样:
+ 数据量过大,计算能力不足。+ 需要快速响应局部情况。+ 时效性要求高,通过抽样快速验证概念。+ 需要进行定性分析工作。+ 无法实现全面覆盖。
什么情况下需要会用到抽样
数据量太大,计算能力不足。
抽样调查,小部分数据即可反应全局情况。
时效要求,通过抽样快速实现概念验证。
定性分析的工作需要。
无法实现全覆盖的场景,比如满意度调查等。
解决样本不均衡问题
随机抽样(用的最多)
该抽样方法是按等概率原则直接从总中抽取n个样本,这种随机样本方法简单,易于操作;但是它并不能保证样本能完美的代表总体,这种抽样的基本前提是所有样本个体都是等概率分布,但真实情况却是很多数样本都不是或无法判断是否等概率分布。在简单随机抽样中,得到的结果是不重复的样本集,还可以使用有放回的简单随机抽样,这样得到的样本集中会存在重复数据。该方法适用于个体分布均匀的场景。
使用Pandas进行数据随机
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)参数说明:
n:需要抽样的数量
frac:需要抽样的比例,0-1之前的小数。
本文共计3528个文字,预计阅读时间需要15分钟。
在以下情况下可能需要使用抽样:
+ 数据量过大,计算能力不足。+ 需要快速响应局部情况。+ 时效性要求高,通过抽样快速验证概念。+ 需要进行定性分析工作。+ 无法实现全面覆盖。
什么情况下需要会用到抽样
数据量太大,计算能力不足。
抽样调查,小部分数据即可反应全局情况。
时效要求,通过抽样快速实现概念验证。
定性分析的工作需要。
无法实现全覆盖的场景,比如满意度调查等。
解决样本不均衡问题
随机抽样(用的最多)
该抽样方法是按等概率原则直接从总中抽取n个样本,这种随机样本方法简单,易于操作;但是它并不能保证样本能完美的代表总体,这种抽样的基本前提是所有样本个体都是等概率分布,但真实情况却是很多数样本都不是或无法判断是否等概率分布。在简单随机抽样中,得到的结果是不重复的样本集,还可以使用有放回的简单随机抽样,这样得到的样本集中会存在重复数据。该方法适用于个体分布均匀的场景。
使用Pandas进行数据随机
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)参数说明:
n:需要抽样的数量
frac:需要抽样的比例,0-1之前的小数。

