如何使用pandas实现数据去重操作?
- 内容介绍
- 文章标签
- 相关推荐
本文共计582个文字,预计阅读时间需要3分钟。
使用 `duplicated()` 和 `drop_duplicates()` 方法去除DataFrame中的重复行,以下是如何简短地描述:
使用 `duplicated()` 方法可以找出重复行,返回一个布尔Series表示重复情况,参数 `subset` 指定检查哪些列。
使用 `drop_duplicates()` 方法直接删除重复行,保留第一次出现的行。
数据去重可以使用duplicated()和drop_duplicates()两个方法。
DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行
参数:
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'
- first:标记重复,True除了第一次出现。
- last:标记重复,True除了最后一次出现。
- 错误:将所有重复项标记为True。
本文共计582个文字,预计阅读时间需要3分钟。
使用 `duplicated()` 和 `drop_duplicates()` 方法去除DataFrame中的重复行,以下是如何简短地描述:
使用 `duplicated()` 方法可以找出重复行,返回一个布尔Series表示重复情况,参数 `subset` 指定检查哪些列。
使用 `drop_duplicates()` 方法直接删除重复行,保留第一次出现的行。
数据去重可以使用duplicated()和drop_duplicates()两个方法。
DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行
参数:
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'
- first:标记重复,True除了第一次出现。
- last:标记重复,True除了最后一次出现。
- 错误:将所有重复项标记为True。

