如何通过Celery并发模式和Prefetch优化提升Python分布式任务执行效率?
- 内容介绍
- 文章标签
- 相关推荐
本文共计997个文字,预计阅读时间需要4分钟。
直接修改以下内容:
为什么 Celery worker 吞吐量卡在 10–20 QPS 上不去
常见现象是:加了 8 个 worker 进程,CPU 却只跑 15%,Redis 监控显示队列积压持续上涨,celery -A tasks inspect stats 显示 prefetch_count 接近上限但 processed 增长缓慢。
根本原因不是并发不够,而是任务被提前锁死在 worker 内存里,无法被其他空闲 worker 抢走。尤其当任务耗时差异大(比如有的 100ms,有的 5s),高 prefetch 会让慢任务“霸占”大量预取额度,阻塞后续快速任务调度。
- 默认
worker_prefetch_multiplier=4,开 4 个进程 → 每个预取 4 条 → 总共锁住 16 条任务 - 若其中一条卡住 5 秒,这 5 秒内其他 15 条都只能干等
-
task_acks_late=True必须配合使用,否则任务一取走就 ack,失败后直接丢弃
Celery 并发模型:-c、-P、-concurrency 的真实作用
-c(即 worker_concurrency)控制的是“同时执行的任务数”,但它受制于实际使用的 pool 类型:-P solo 是单线程协程,-P prefork(默认)才是多进程,-P eventlet 或 -P gevent 是协程池。
本文共计997个文字,预计阅读时间需要4分钟。
直接修改以下内容:
为什么 Celery worker 吞吐量卡在 10–20 QPS 上不去
常见现象是:加了 8 个 worker 进程,CPU 却只跑 15%,Redis 监控显示队列积压持续上涨,celery -A tasks inspect stats 显示 prefetch_count 接近上限但 processed 增长缓慢。
根本原因不是并发不够,而是任务被提前锁死在 worker 内存里,无法被其他空闲 worker 抢走。尤其当任务耗时差异大(比如有的 100ms,有的 5s),高 prefetch 会让慢任务“霸占”大量预取额度,阻塞后续快速任务调度。
- 默认
worker_prefetch_multiplier=4,开 4 个进程 → 每个预取 4 条 → 总共锁住 16 条任务 - 若其中一条卡住 5 秒,这 5 秒内其他 15 条都只能干等
-
task_acks_late=True必须配合使用,否则任务一取走就 ack,失败后直接丢弃
Celery 并发模型:-c、-P、-concurrency 的真实作用
-c(即 worker_concurrency)控制的是“同时执行的任务数”,但它受制于实际使用的 pool 类型:-P solo 是单线程协程,-P prefork(默认)才是多进程,-P eventlet 或 -P gevent 是协程池。

