Oracle RAC如何配置RMAN备份策略以实现高可用自动备份?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1312个文字,预计阅读时间需要6分钟。
相关专题
rac 的 rman 自动备份不是靠“自动”本身实现高可用,而是靠共享存储 + 统一调度 + 故障转移机制来保障备份不中断。 单纯在节点1写个 cron 脚本跑 rman,节点1挂了备份就停——这不算高可用。真正在意备份连续性的团队,必须把“谁来执行”和“备份存哪”拆开设计。
备份目标必须落在共享存储(NFS / ASM / SAN),不能用本地磁盘
节点1往 /rmanbak 写,节点2往 /rmanbak 读,前提是这个路径对两个实例都可读写且内容一致。常见错误是:两个节点各自挂载不同 NFS 导出路径(如 node1 挂 nas1:/backup,node2 挂 nas2:/backup),导致归档日志分散、控制文件备份不全、restore 时找不到 piece。
- 推荐做法:所有节点统一挂载同一个 NFS 共享目录(如
192.168.0.111:/data→/bak),并验证oracle用户在两节点都能touch /bak/test.txt - 若用 ASM,确保所有节点都能访问同一磁盘组(如
+DATA),且 RMAN 脚本中明确指定FORMAT '+DATA/BACKUP/%U' - 不要依赖
$ORACLE_HOME/dbs下的本地init.ora或环境变量路径做备份目标——它只对当前节点生效
RMAN 配置必须启用 CONTROLFILE AUTOBACKUP 和跨节点可见的 FORMAT
控制文件和 SPFILE 是恢复起点,RAC 中任一节点修改结构(比如加数据文件)都会触发控制文件变更。如果没开启自动备份,或备份路径写成节点私有路径(如 '/home/oracle/bak/%F'),另一节点根本看不到这个备份,startup mount 后连 restore controlfile 都做不到。
- 必须执行:
CONFIGURE CONTROLFILE AUTOBACKUP ON - FORMAT 必须指向共享路径:
CONFIGURE CONTROLFILE AUTOBACKUP FORMAT FOR DEVICE TYPE DISK TO '/bak/rman/control_%F' - 别信默认值
'%F'—— 它只生成文件名,不带路径,实际会落到$ORACLE_HOME/dbs,这是单机思维残留 - 验证方式:手动执行一次
ALTER SYSTEM ARCHIVE LOG CURRENT,然后查ls -l /bak/rman/是否生成新控制文件备份
备份脚本不能绑定单一节点,要支持双节点 failover 执行
生产中真正扛住节点故障的方案,不是“主备脚本”,而是“无主脚本”:所有节点部署完全相同的脚本,但通过锁机制或集群服务判断是否该自己执行。最简可行方案是用 srvctl status database + 实例名判断当前节点是否为首选执行节点(比如只让 orcl1 运行全备),但更健壮的是用 Oracle Clusterware 的 crsctl 或自定义资源类型。
- 基础版(推荐先落地):在
cron中加判断,例如每天 3 点执行前检查:srvctl status instance -d orcl -i orcl1 | grep "is running",仅当 orcl1 在运行时才执行全备 - 进阶版:用
crs_register注册一个自定义应用资源,绑定到特定 VIP 或服务名,由 CRS 自动漂移执行权 - 绝对避免:在 node1 的
cron里写ssh node2 rman ...—— SSH 失败、密钥过期、防火墙策略变动都会导致备份静默失败
归档日志路径必须统一管理,否则 RMAN plus archivelog 会漏日志
RAC 默认每个实例写自己的归档路径(如 node1 → +FRA/orcl/archivelog/,node2 → +FRA/orcl/archivelog/),逻辑上没问题,但 RMAN PLUS ARCHIVELOG 默认只扫当前连接实例的归档位置。如果脚本只连 orcl1,node2 产生的归档就永远不会被备份,恢复时直接报 ORA-00308。
- 解决办法一(推荐):所有实例强制使用同一归档目的地,SQL 执行:
ALTER SYSTEM SET log_archive_dest_1='LOCATION=+FRA VALID_FOR=(ALL_LOGFILES,ALL_ROLES) DB_UNIQUE_NAME=orcl' SCOPE=BOTH SID='*'; - 解决办法二:备份脚本中显式分配多个通道,分别连接不同实例:
allocate channel c1 connect 'sys/oracle@orcl1' device type disk;,allocate channel c2 connect 'sys/oracle@orcl2' device type disk; - 验证点:执行
LIST ARCHIVELOG ALL;前先CONNECT TARGET SYS@orcl(连接 SCAN 名),看是否列出全部实例的归档日志
最容易被忽略的是归档路径的 VALID_FOR 属性和 RMAN 连接方式的耦合——哪怕用了 SCAN 名连接,如果归档没设成 ALL_LOGFILES,RMAN 依然只认当前实例视角下的归档。备份能跑通不等于覆盖完整,恢复失败那一刻才知道缺了哪段日志。
本文共计1312个文字,预计阅读时间需要6分钟。
相关专题
rac 的 rman 自动备份不是靠“自动”本身实现高可用,而是靠共享存储 + 统一调度 + 故障转移机制来保障备份不中断。 单纯在节点1写个 cron 脚本跑 rman,节点1挂了备份就停——这不算高可用。真正在意备份连续性的团队,必须把“谁来执行”和“备份存哪”拆开设计。
备份目标必须落在共享存储(NFS / ASM / SAN),不能用本地磁盘
节点1往 /rmanbak 写,节点2往 /rmanbak 读,前提是这个路径对两个实例都可读写且内容一致。常见错误是:两个节点各自挂载不同 NFS 导出路径(如 node1 挂 nas1:/backup,node2 挂 nas2:/backup),导致归档日志分散、控制文件备份不全、restore 时找不到 piece。
- 推荐做法:所有节点统一挂载同一个 NFS 共享目录(如
192.168.0.111:/data→/bak),并验证oracle用户在两节点都能touch /bak/test.txt - 若用 ASM,确保所有节点都能访问同一磁盘组(如
+DATA),且 RMAN 脚本中明确指定FORMAT '+DATA/BACKUP/%U' - 不要依赖
$ORACLE_HOME/dbs下的本地init.ora或环境变量路径做备份目标——它只对当前节点生效
RMAN 配置必须启用 CONTROLFILE AUTOBACKUP 和跨节点可见的 FORMAT
控制文件和 SPFILE 是恢复起点,RAC 中任一节点修改结构(比如加数据文件)都会触发控制文件变更。如果没开启自动备份,或备份路径写成节点私有路径(如 '/home/oracle/bak/%F'),另一节点根本看不到这个备份,startup mount 后连 restore controlfile 都做不到。
- 必须执行:
CONFIGURE CONTROLFILE AUTOBACKUP ON - FORMAT 必须指向共享路径:
CONFIGURE CONTROLFILE AUTOBACKUP FORMAT FOR DEVICE TYPE DISK TO '/bak/rman/control_%F' - 别信默认值
'%F'—— 它只生成文件名,不带路径,实际会落到$ORACLE_HOME/dbs,这是单机思维残留 - 验证方式:手动执行一次
ALTER SYSTEM ARCHIVE LOG CURRENT,然后查ls -l /bak/rman/是否生成新控制文件备份
备份脚本不能绑定单一节点,要支持双节点 failover 执行
生产中真正扛住节点故障的方案,不是“主备脚本”,而是“无主脚本”:所有节点部署完全相同的脚本,但通过锁机制或集群服务判断是否该自己执行。最简可行方案是用 srvctl status database + 实例名判断当前节点是否为首选执行节点(比如只让 orcl1 运行全备),但更健壮的是用 Oracle Clusterware 的 crsctl 或自定义资源类型。
- 基础版(推荐先落地):在
cron中加判断,例如每天 3 点执行前检查:srvctl status instance -d orcl -i orcl1 | grep "is running",仅当 orcl1 在运行时才执行全备 - 进阶版:用
crs_register注册一个自定义应用资源,绑定到特定 VIP 或服务名,由 CRS 自动漂移执行权 - 绝对避免:在 node1 的
cron里写ssh node2 rman ...—— SSH 失败、密钥过期、防火墙策略变动都会导致备份静默失败
归档日志路径必须统一管理,否则 RMAN plus archivelog 会漏日志
RAC 默认每个实例写自己的归档路径(如 node1 → +FRA/orcl/archivelog/,node2 → +FRA/orcl/archivelog/),逻辑上没问题,但 RMAN PLUS ARCHIVELOG 默认只扫当前连接实例的归档位置。如果脚本只连 orcl1,node2 产生的归档就永远不会被备份,恢复时直接报 ORA-00308。
- 解决办法一(推荐):所有实例强制使用同一归档目的地,SQL 执行:
ALTER SYSTEM SET log_archive_dest_1='LOCATION=+FRA VALID_FOR=(ALL_LOGFILES,ALL_ROLES) DB_UNIQUE_NAME=orcl' SCOPE=BOTH SID='*'; - 解决办法二:备份脚本中显式分配多个通道,分别连接不同实例:
allocate channel c1 connect 'sys/oracle@orcl1' device type disk;,allocate channel c2 connect 'sys/oracle@orcl2' device type disk; - 验证点:执行
LIST ARCHIVELOG ALL;前先CONNECT TARGET SYS@orcl(连接 SCAN 名),看是否列出全部实例的归档日志
最容易被忽略的是归档路径的 VALID_FOR 属性和 RMAN 连接方式的耦合——哪怕用了 SCAN 名连接,如果归档没设成 ALL_LOGFILES,RMAN 依然只认当前实例视角下的归档。备份能跑通不等于覆盖完整,恢复失败那一刻才知道缺了哪段日志。

