有哪些实用的Python脚本可以高效清理数据?
- 内容介绍
- 文章标签
- 相关推荐
本文共计973个文字,预计阅读时间需要4分钟。
目录+将PDF转换为CSV+合并CSV文件+从CSV文件中删除重复行+CSV列+合并不同的数据集+最后+将PDF转换为CSV+在机器学习中,我们应该进行一些数据清洗,做一些数据准备。当我们“
目录
- 将 PDF 转换为 CSV
- 合并 CSV 文件
- 从 CSV 文件中删除重复的行
- 拆分 CSV 列
- 合并不同的数据集
- 最后
将 PDF 转换为 CSV
在机器学习中,我们应该少一些“数据清理”,多一些“数据准备”。当我们需要从白皮书、电子书或其他PDF文档中抓取数据时,这个脚本为我节省了很多时间。
import tabula #获取文件 pdf_filename = input ("Enter the full path and filename: ") # 提取PDF的内容 frame = tabula.read_pdf(pdf_filename, encoding = 'utf-8', pages='all') #根据内容创建CSV文件 frame.to_csv('pdf_conversion.csv')
这是一种相对简单的快速提取数据的方法,可以在将数据导入机器学习数据库、Tableau或Count等工具。
本文共计973个文字,预计阅读时间需要4分钟。
目录+将PDF转换为CSV+合并CSV文件+从CSV文件中删除重复行+CSV列+合并不同的数据集+最后+将PDF转换为CSV+在机器学习中,我们应该进行一些数据清洗,做一些数据准备。当我们“
目录
- 将 PDF 转换为 CSV
- 合并 CSV 文件
- 从 CSV 文件中删除重复的行
- 拆分 CSV 列
- 合并不同的数据集
- 最后
将 PDF 转换为 CSV
在机器学习中,我们应该少一些“数据清理”,多一些“数据准备”。当我们需要从白皮书、电子书或其他PDF文档中抓取数据时,这个脚本为我节省了很多时间。
import tabula #获取文件 pdf_filename = input ("Enter the full path and filename: ") # 提取PDF的内容 frame = tabula.read_pdf(pdf_filename, encoding = 'utf-8', pages='all') #根据内容创建CSV文件 frame.to_csv('pdf_conversion.csv')
这是一种相对简单的快速提取数据的方法,可以在将数据导入机器学习数据库、Tableau或Count等工具。

