如何使用Pandas在Python中实现次日及7日用户留存率的全量计算分析?

2026-05-08 05:407阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计921个文字,预计阅读时间需要4分钟。

如何使用Pandas在Python中实现次日及7日用户留存率的全量计算分析?

次日留存率并非某天登录的人里第二天还来的比例,而是某天首次登录的用户中,第二天再次活跃的比例。去除首次这个限定,结果会更为保守高估——老用户重复登录会混淆分子。

实操建议:

立即学习“Python免费学习笔记(深入)”;

  • 先用 df.sort_values(['user_id', 'event_time']) 确保每个用户行为按时间排序
  • df.groupby('user_id')['event_time'].min() 提取每个用户的 first_login_date
  • first_login_date 合并回原表,作为后续分组依据
  • 别直接对原始登录日分组——那算的是“当日登录用户留存”,不是“新用户留存”

计算次日/7日是否活跃:用 pd.to_datetime 对齐日期再做差值比较

直接用字符串比日期、或没统一时区/格式就减时间戳,容易因精度丢失(比如 '2024-01-01 23:59:59''2024-01-02 00:00:01' 被判为跨2天)导致漏计。

实操建议:

立即学习“Python免费学习笔记(深入)”;

  • event_timefirst_login_date 都转成 pd.to_datetime(...).dt.date(只留年月日)
  • (active_date - first_login_date).days 得整数天数,避免 Timedelta 单位混淆
  • 次日留存对应 days == 1,7日留存对应 days >= 1 and days (注意是“7日内至少活跃一次”,不是“第7天恰好活跃”)

聚合时别用 count() 直接除——要防分母为0和重复用户

一个新用户在次日多次打开 App,groupby().count() 会把这个人算多次,但留存只看“是否来过”,不是“来了几次”。更糟的是,如果某天没新用户,分母为0,div() 会产出 infNaN,后续画图或导出易崩。

实操建议:

立即学习“Python免费学习笔记(深入)”;

  • 对每个 first_login_date 组,用 nunique('user_id') 算分母(新用户数)
  • 分子用 df[df['days']==1]['user_id'].nunique()(次日去重用户数)
  • 最后用 .fillna(0) 替换空组的 NaN,再用 .replace([np.inf, -np.inf], 0) 清理异常值

性能卡在大表上?避免 apply 和循环,改用 merge + agg

有人写 for date in dates: df[df['first']==date].apply(...),百万级用户下跑几小时。Pandas 的向量化操作根本不需要逐天遍历。

实操建议:

立即学习“Python免费学习笔记(深入)”;

  • 把新用户表(含 user_id, first_login_date)和全量行为表(含 user_id, active_date)用 merge 连接
  • 加一列 days = (active_date - first_login_date).dt.days
  • groupby('first_login_date').agg({'user_id': ['nunique', lambda x: x[x.map(lambda u: (df[df.user_id==u].days>=1)&(df[df.user_id==u].days 是错的——别这么写;正确做法是先标记每条记录是否满足次日/7日条件,再聚合
  • 更稳的写法:df['is_d1'] = (df.days == 1); df['is_d7'] = (df.days.between(1, 7)); df.groupby('first_login_date').agg(d1_retain=('is_d1', 'mean'), d7_retain=('is_d7', 'mean'))

保留住“首次登录日”这个锚点,其他全是围绕它展开的布尔标记和分组聚合。最常被跳过的一步,就是没验证 first_login_date 是否真为每人最小时间——只要有一例时间错乱,整张留存表就不可信。

标签:Python

本文共计921个文字,预计阅读时间需要4分钟。

如何使用Pandas在Python中实现次日及7日用户留存率的全量计算分析?

次日留存率并非某天登录的人里第二天还来的比例,而是某天首次登录的用户中,第二天再次活跃的比例。去除首次这个限定,结果会更为保守高估——老用户重复登录会混淆分子。

实操建议:

立即学习“Python免费学习笔记(深入)”;

  • 先用 df.sort_values(['user_id', 'event_time']) 确保每个用户行为按时间排序
  • df.groupby('user_id')['event_time'].min() 提取每个用户的 first_login_date
  • first_login_date 合并回原表,作为后续分组依据
  • 别直接对原始登录日分组——那算的是“当日登录用户留存”,不是“新用户留存”

计算次日/7日是否活跃:用 pd.to_datetime 对齐日期再做差值比较

直接用字符串比日期、或没统一时区/格式就减时间戳,容易因精度丢失(比如 '2024-01-01 23:59:59''2024-01-02 00:00:01' 被判为跨2天)导致漏计。

实操建议:

立即学习“Python免费学习笔记(深入)”;

  • event_timefirst_login_date 都转成 pd.to_datetime(...).dt.date(只留年月日)
  • (active_date - first_login_date).days 得整数天数,避免 Timedelta 单位混淆
  • 次日留存对应 days == 1,7日留存对应 days >= 1 and days (注意是“7日内至少活跃一次”,不是“第7天恰好活跃”)

聚合时别用 count() 直接除——要防分母为0和重复用户

一个新用户在次日多次打开 App,groupby().count() 会把这个人算多次,但留存只看“是否来过”,不是“来了几次”。更糟的是,如果某天没新用户,分母为0,div() 会产出 infNaN,后续画图或导出易崩。

实操建议:

立即学习“Python免费学习笔记(深入)”;

  • 对每个 first_login_date 组,用 nunique('user_id') 算分母(新用户数)
  • 分子用 df[df['days']==1]['user_id'].nunique()(次日去重用户数)
  • 最后用 .fillna(0) 替换空组的 NaN,再用 .replace([np.inf, -np.inf], 0) 清理异常值

性能卡在大表上?避免 apply 和循环,改用 merge + agg

有人写 for date in dates: df[df['first']==date].apply(...),百万级用户下跑几小时。Pandas 的向量化操作根本不需要逐天遍历。

实操建议:

立即学习“Python免费学习笔记(深入)”;

  • 把新用户表(含 user_id, first_login_date)和全量行为表(含 user_id, active_date)用 merge 连接
  • 加一列 days = (active_date - first_login_date).dt.days
  • groupby('first_login_date').agg({'user_id': ['nunique', lambda x: x[x.map(lambda u: (df[df.user_id==u].days>=1)&(df[df.user_id==u].days 是错的——别这么写;正确做法是先标记每条记录是否满足次日/7日条件,再聚合
  • 更稳的写法:df['is_d1'] = (df.days == 1); df['is_d7'] = (df.days.between(1, 7)); df.groupby('first_login_date').agg(d1_retain=('is_d1', 'mean'), d7_retain=('is_d7', 'mean'))

保留住“首次登录日”这个锚点,其他全是围绕它展开的布尔标记和分组聚合。最常被跳过的一步,就是没验证 first_login_date 是否真为每人最小时间——只要有一例时间错乱,整张留存表就不可信。

标签:Python