如何使用Pandas在Python中实现次日及7日用户留存率的全量计算分析？

2026-05-08 05:407阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

本文共计921个文字，预计阅读时间需要4分钟。

次日留存率并非某天登录的人里第二天还来的比例，而是某天首次登录的用户中，第二天再次活跃的比例。去除首次这个限定，结果会更为保守高估——老用户重复登录会混淆分子。

实操建议：

立即学习“Python免费学习笔记（深入）”；

先用 df.sort_values(['user_id', 'event_time']) 确保每个用户行为按时间排序
用 df.groupby('user_id')['event_time'].min() 提取每个用户的 first_login_date
把 first_login_date 合并回原表，作为后续分组依据
别直接对原始登录日分组——那算的是“当日登录用户留存”，不是“新用户留存”

计算次日/7日是否活跃：用 `pd.to_datetime` 对齐日期再做差值比较

直接用字符串比日期、或没统一时区/格式就减时间戳，容易因精度丢失（比如 '2024-01-01 23:59:59' 和 '2024-01-02 00:00:01' 被判为跨2天）导致漏计。

实操建议：

立即学习“Python免费学习笔记（深入）”；

把 event_time 和 first_login_date 都转成 pd.to_datetime(...).dt.date（只留年月日）
用 (active_date - first_login_date).days 得整数天数，避免 Timedelta 单位混淆
次日留存对应 days == 1，7日留存对应 days >= 1 and days （注意是“7日内至少活跃一次”，不是“第7天恰好活跃”）

聚合时别用 `count()` 直接除——要防分母为0和重复用户

一个新用户在次日多次打开 App，groupby().count() 会把这个人算多次，但留存只看“是否来过”，不是“来了几次”。更糟的是，如果某天没新用户，分母为0，div() 会产出 inf 或 NaN，后续画图或导出易崩。

实操建议：

立即学习“Python免费学习笔记（深入）”；

对每个 first_login_date 组，用 nunique('user_id') 算分母（新用户数）
分子用 df[df['days']==1]['user_id'].nunique()（次日去重用户数）
最后用 .fillna(0) 替换空组的 NaN，再用 .replace([np.inf, -np.inf], 0) 清理异常值

性能卡在大表上？避免 `apply` 和循环，改用 `merge` + `agg`

有人写 for date in dates: df[df['first']==date].apply(...)，百万级用户下跑几小时。Pandas 的向量化操作根本不需要逐天遍历。

实操建议：

立即学习“Python免费学习笔记（深入）”；

把新用户表（含 user_id, first_login_date）和全量行为表（含 user_id, active_date）用 merge 连接
加一列 days = (active_date - first_login_date).dt.days
用 groupby('first_login_date').agg({'user_id': ['nunique', lambda x: x[x.map(lambda u: (df[df.user_id==u].days>=1)&(df[df.user_id==u].days 是错的——别这么写；正确做法是先标记每条记录是否满足次日/7日条件，再聚合
更稳的写法：df['is_d1'] = (df.days == 1); df['is_d7'] = (df.days.between(1, 7)); df.groupby('first_login_date').agg(d1_retain=('is_d1', 'mean'), d7_retain=('is_d7', 'mean'))

保留住“首次登录日”这个锚点，其他全是围绕它展开的布尔标记和分组聚合。最常被跳过的一步，就是没验证 first_login_date 是否真为每人最小时间——只要有一例时间错乱，整张留存表就不可信。

标签：Python

本文共计921个文字，预计阅读时间需要4分钟。

实操建议：

立即学习“Python免费学习笔记（深入）”；

先用 df.sort_values(['user_id', 'event_time']) 确保每个用户行为按时间排序
用 df.groupby('user_id')['event_time'].min() 提取每个用户的 first_login_date
把 first_login_date 合并回原表，作为后续分组依据
别直接对原始登录日分组——那算的是“当日登录用户留存”，不是“新用户留存”

计算次日/7日是否活跃：用 `pd.to_datetime` 对齐日期再做差值比较

直接用字符串比日期、或没统一时区/格式就减时间戳，容易因精度丢失（比如 '2024-01-01 23:59:59' 和 '2024-01-02 00:00:01' 被判为跨2天）导致漏计。

实操建议：

立即学习“Python免费学习笔记（深入）”；

把 event_time 和 first_login_date 都转成 pd.to_datetime(...).dt.date（只留年月日）
用 (active_date - first_login_date).days 得整数天数，避免 Timedelta 单位混淆
次日留存对应 days == 1，7日留存对应 days >= 1 and days （注意是“7日内至少活跃一次”，不是“第7天恰好活跃”）

聚合时别用 `count()` 直接除——要防分母为0和重复用户

实操建议：

立即学习“Python免费学习笔记（深入）”；

对每个 first_login_date 组，用 nunique('user_id') 算分母（新用户数）
分子用 df[df['days']==1]['user_id'].nunique()（次日去重用户数）
最后用 .fillna(0) 替换空组的 NaN，再用 .replace([np.inf, -np.inf], 0) 清理异常值

性能卡在大表上？避免 `apply` 和循环，改用 `merge` + `agg`

有人写 for date in dates: df[df['first']==date].apply(...)，百万级用户下跑几小时。Pandas 的向量化操作根本不需要逐天遍历。

实操建议：

立即学习“Python免费学习笔记（深入）”；

把新用户表（含 user_id, first_login_date）和全量行为表（含 user_id, active_date）用 merge 连接
加一列 days = (active_date - first_login_date).dt.days
用 groupby('first_login_date').agg({'user_id': ['nunique', lambda x: x[x.map(lambda u: (df[df.user_id==u].days>=1)&(df[df.user_id==u].days 是错的——别这么写；正确做法是先标记每条记录是否满足次日/7日条件，再聚合
更稳的写法：df['is_d1'] = (df.days == 1); df['is_d7'] = (df.days.between(1, 7)); df.groupby('first_login_date').agg(d1_retain=('is_d1', 'mean'), d7_retain=('is_d7', 'mean'))

标签：Python

计算次日/7日是否活跃：用 pd.to_datetime 对齐日期再做差值比较

聚合时别用 count() 直接除——要防分母为0和重复用户

性能卡在大表上？避免 apply 和循环，改用 merge + agg

相关推荐

计算次日/7日是否活跃：用 pd.to_datetime 对齐日期再做差值比较

聚合时别用 count() 直接除——要防分母为0和重复用户

性能卡在大表上？避免 apply 和循环，改用 merge + agg

相关推荐

计算次日/7日是否活跃：用 `pd.to_datetime` 对齐日期再做差值比较

聚合时别用 `count()` 直接除——要防分母为0和重复用户

性能卡在大表上？避免 `apply` 和循环，改用 `merge` + `agg`

计算次日/7日是否活跃：用 `pd.to_datetime` 对齐日期再做差值比较

聚合时别用 `count()` 直接除——要防分母为0和重复用户

性能卡在大表上？避免 `apply` 和循环，改用 `merge` + `agg`