ZooKeeper同步WAL数据导致ResourceManager重启,这种复杂现象背后的原因究竟是什么?

2026-04-03 01:460阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计627个文字,预计阅读时间需要3分钟。

ZooKeeper同步WAL数据导致ResourceManager重启,这种复杂现象背后的原因究竟是什么?

ZooKeeper 同步WAL数据导致ResourceM+问题描述:YARN重启动、Flink任务挂起(脚本检测后自动恢复任务)+YARN后台日志+显示连接不Zookeeper并触发ResourceManager HA选举,找不到Active的Resource

ZooKeeper同步WAL数据导致ResourceM

问题描述:YARN莫名重启、Flink任务挂掉(脚本检测到之后自动恢复任务)

YARN后台日志

显示连不上Zookeeper并触发ResourceManager HA选举,

找不到Active的ResourceManager了。

HA状态切换为standby之后,开始停止ResourceManager相关服务(8032-RM对Client的服务端口、8030-RM对AM的服务端口、8031-RM对NM的服务端口)。

然后开始Recover,恢复RM...。

RM重启后开始接收Container状态注册(Flink任务),时间戳1586772031875 显示是2020-04-13 18:00:31创建的任务。RM发现注册的Container是未知应用,在RM上下文环境里面找不到了,然后就添加到已完成的应用列表里面了-后续清理掉。

阅读全文

本文共计627个文字,预计阅读时间需要3分钟。

ZooKeeper同步WAL数据导致ResourceManager重启,这种复杂现象背后的原因究竟是什么?

ZooKeeper 同步WAL数据导致ResourceM+问题描述:YARN重启动、Flink任务挂起(脚本检测后自动恢复任务)+YARN后台日志+显示连接不Zookeeper并触发ResourceManager HA选举,找不到Active的Resource

ZooKeeper同步WAL数据导致ResourceM

问题描述:YARN莫名重启、Flink任务挂掉(脚本检测到之后自动恢复任务)

YARN后台日志

显示连不上Zookeeper并触发ResourceManager HA选举,

找不到Active的ResourceManager了。

HA状态切换为standby之后,开始停止ResourceManager相关服务(8032-RM对Client的服务端口、8030-RM对AM的服务端口、8031-RM对NM的服务端口)。

然后开始Recover,恢复RM...。

RM重启后开始接收Container状态注册(Flink任务),时间戳1586772031875 显示是2020-04-13 18:00:31创建的任务。RM发现注册的Container是未知应用,在RM上下文环境里面找不到了,然后就添加到已完成的应用列表里面了-后续清理掉。

阅读全文