有哪些Pandas高级技巧能显著提升数据分析效率?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1181个文字,预计阅读时间需要5分钟。
原作:原创:风控侠人 + 整理:数据管道 + 归纳整理了一些工作中常用到的pandas使用技巧,方便更高效地实现数据分析。内容:
1.计算变量缺失率
pythondf=pd.read_csv('titanic_train.csv')def missing_cal(df): df: 数据集原作:风控猎人
整理:数据管道
归纳整理了一些工作中常用到的pandas使用技巧,方便更高效地实现数据分析。
1.计算变量缺失率
df=pd.read_csv('titanic_train.csv') def missing_cal(df): """ df :数据集 return:每个变量的缺失率 """ missing_series = df.isnull().sum()/df.shape[0] missing_df = pd.DataFrame(missing_series).reset_index() missing_df = missing_df.rename(columns={'index':'col', 0:'missing_pct'}) missing_df = missing_df.sort_values('missing_pct',ascending=False).reset_index(drop=True) return missing_df missing_cal(df)
如果需要计算样本的缺失率分布,只要加上参数axis=1.
2.获取分组里最大值所在的行方法
分为分组中有重复值和无重复值两种。
本文共计1181个文字,预计阅读时间需要5分钟。
原作:原创:风控侠人 + 整理:数据管道 + 归纳整理了一些工作中常用到的pandas使用技巧,方便更高效地实现数据分析。内容:
1.计算变量缺失率
pythondf=pd.read_csv('titanic_train.csv')def missing_cal(df): df: 数据集原作:风控猎人
整理:数据管道
归纳整理了一些工作中常用到的pandas使用技巧,方便更高效地实现数据分析。
1.计算变量缺失率
df=pd.read_csv('titanic_train.csv') def missing_cal(df): """ df :数据集 return:每个变量的缺失率 """ missing_series = df.isnull().sum()/df.shape[0] missing_df = pd.DataFrame(missing_series).reset_index() missing_df = missing_df.rename(columns={'index':'col', 0:'missing_pct'}) missing_df = missing_df.sort_values('missing_pct',ascending=False).reset_index(drop=True) return missing_df missing_cal(df)
如果需要计算样本的缺失率分布,只要加上参数axis=1.
2.获取分组里最大值所在的行方法
分为分组中有重复值和无重复值两种。

