如何高效利用pandas apply实现并行处理?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1062个文字,预计阅读时间需要5分钟。
1. 使用 `pandarallel` (pip install pandarallel) 对 Pandas DataFrame `df` 进行并行处理示例及应用函数 `func`,只需用 `parallel_apply` 替换常规的 `apply`。 from pandarallel import pandarallel pandarallel.initialize() # 初始化并行环境 df['result']=df['data'].apply(func) # 原始apply方法 df['result']=df['data'].parallel_apply(func) # 使用pandarallel的parallel_apply方法
1. pandarallel (pip install )
对于一个带有Pandas DataFrame df的简单用例和一个应用func的函数,只需用parallel_apply替换经典的apply。
from pandarallel import pandarallel # Initialization pandarallel.initialize() # Standard pandas apply df.apply(func) # Parallel apply df.parallel_apply(func)
注意,如果不想并行化计算,仍然可以使用经典的apply方法。
另外可以通过在initialize函数中传递progress_bar=True来显示每个工作CPU的一个进度条。
本文共计1062个文字,预计阅读时间需要5分钟。
1. 使用 `pandarallel` (pip install pandarallel) 对 Pandas DataFrame `df` 进行并行处理示例及应用函数 `func`,只需用 `parallel_apply` 替换常规的 `apply`。 from pandarallel import pandarallel pandarallel.initialize() # 初始化并行环境 df['result']=df['data'].apply(func) # 原始apply方法 df['result']=df['data'].parallel_apply(func) # 使用pandarallel的parallel_apply方法
1. pandarallel (pip install )
对于一个带有Pandas DataFrame df的简单用例和一个应用func的函数,只需用parallel_apply替换经典的apply。
from pandarallel import pandarallel # Initialization pandarallel.initialize() # Standard pandas apply df.apply(func) # Parallel apply df.parallel_apply(func)
注意,如果不想并行化计算,仍然可以使用经典的apply方法。
另外可以通过在initialize函数中传递progress_bar=True来显示每个工作CPU的一个进度条。

