实用脚本能批量容灾吗？

wen 实用脚本 2026-06-10 10

本文目录导读：

实用脚本能批量容灾吗？

脚本能批量做哪些容灾工作？
一个“批量容灾脚本”的典型实现思路
脚本无法替代的部分（能力边界）
更好的实践：脚本 + 工具
总结与建议

这是一个很有价值的问题，简单直接的回答是：可以，但“实用脚本”通常只负责容灾流程中的自动化执行部分（如备份、同步、切换），而非容灾架构本身。

容灾（Disaster Recovery, DR）是一个系统工程，包含数据备份、数据同步、故障检测、业务切换、回切等多个环节，脚本可以高效地自动化其中很多步骤,但需要配合架构设计。

下面我们分层次来探讨“如何用实用脚本实现批量容灾”,以及它的能力边界和最佳实践。

脚本能批量做哪些容灾工作？

脚本的核心价值在于自动化和标准化，对于批量容灾,脚本主要用于以下场景：

批量数据备份与同步（最常用）

数据库层面：编写脚本批量遍历所有MySQL/PostgreSQL实例，执行mysqldump或pg_dump，并将备份文件同步到异地存储（如OSS, S3）。
文件层面：使用rsync + SSH脚本，将多台服务器上的关键目录（如配置文件、上传目录）增量同步到备用机房。
云平台快照：调用云厂商API（如AWS EC2 CreateSnapshot，阿里云 CreateSnapshot），用脚本批量创建所有ECS/VM的磁盘快照。

批量健康检查与故障预警

Ping/端口探测：脚本循环检测一批IP地址的指定端口（如80, 3306）是否可达。
应用状态：通过curl请求一批应用的/health接口，如果连续N次失败,则执行后续动作。

批量DNS/IP切换（相对危险，需谨慎）

修改DNS记录：脚本调用DNS服务商API,将主站点的A记录或CNAME记录批量指向备用服务器IP。
切换虚拟IP：在Keepalived或云负载均衡器上，脚本通过API将主实例从后端池摘除,将备实例加入。

一键切换与回切

编写一个主控脚本，按顺序执行：停止主应用 -> 同步最后一次增量数据 -> 启动备应用 -> 修改DNS/路由 -> 验证。

一个“批量容灾脚本”的典型实现思路

假设我们有100台Web服务器和10台数据库服务器，希望实现“异地将配置文件和数据库批量备份，并能在主中心宕机后一键切换”。

你可以设计一个控制器脚本 (如 disaster_recovery.sh),它通过SSH密钥信任或Ansible等工具连接到所有目标机器。

伪代码逻辑（Python风格）：

import subprocess
import json
# 读取服务器列表配置文件
nodes = json.load(open('nodes.json'))
disaster_site = '192.168.200.0/24'  # 容灾站点网段
def batch_backup():
    """批量备份所有节点"""
    for node in nodes:
        if node['type'] == 'web':
            # 执行远程rsync命令
            cmd = f"rsync -avz /var/www/html user@{node['backup_host']}:/backups/web/{node['name']}/"
            subprocess.run(cmd, shell=True)
            print(f"Web server {node['name']} backed up.")
        elif node['type'] == 'db':
            # 执行远程mysqldump
            cmd = f"ssh user@{node['ip']} 'mysqldump -u root --all-databases | gzip' > /backups/db/{node['name']}.sql.gz"
            subprocess.run(cmd, shell=True)
            print(f"Database {node['name']} backed up.")
def batch_failover():
    """批量执行切换（非常危险，需严格测试）"""
    # 1. 停止所有主服务
    for node in nodes:
        subprocess.run(f"ssh user@{node['ip']} 'systemctl stop nginx mysql'", shell=True)
    # 2. 如果要做最终同步（可选）
    # 3. 在容灾站点启动服务（假设容灾站点的服务已经通过其他方式配置好）
    for node in nodes:
        subprocess.run(f"ssh user@{node['disaster_ip']} 'systemctl start nginx mysql'", shell=True)
    # 4. 切换DNS（调用多云API）
    print("DNS records updated to disaster site.")

关键点：

幂等性：脚本反复执行不应产生副作用（比如重复备份）。
可观测性：每执行一步，都记录详细的日志,并发送通知。
倒退机制：一旦某一步失败,能够尝试回滚。

脚本无法替代的部分（能力边界）

虽然脚本能自动化操作，但单纯靠脚本无法解决以下根本问题：

数据一致性：脚本只能复制文件，无法保证在复制过程中数据库的写入是否完整，通常需要结合数据库的同步工具（如MySQL Binlog同步，MongoDB Oplog）。
网络依赖：容灾的核心是“切换”，如果你的主数据中心完全断网，脚本连不上主服务器，批量切换脚本”本身也无法执行。
版本冲突：批量切换时，如果A服务器的配置和B服务器的配置不兼容（例如依赖库版本不同）,脚本无法自动修复。
状态验证：脚本只能执行命令，无法智能判断“为什么启动失败”，启动服务时报了Port already in use,脚本需要复杂的逻辑才能处理。
状态恢复：当主中心恢复后，如何将增量数据完美地回写到主中心？这通常是容灾中最复杂的部分,很难用简单的脚本完成。

更好的实践：脚本 + 工具

建议将脚本作为“粘合剂”或“定制化补充”,与成熟的容灾工具配合使用：

场景	推荐方式	脚本的作用
数据同步	Rsync + Cron (文件) SQL Server Always On / MySQL Group Replication (数据库)	脚本负责配置、监控、告警
云上批量容灾	Terraform / Ansible	用Terraform定义基础设施，脚本触发 `terraform apply` 在另一个Region重建环境
容器化应用	Kubernetes + Velero	脚本调用`velero backup create`和`velero restore create`，K8s原生提供资源编排和网络切换。
自动化故障转移	Keepalived / 云负载均衡器健康检查	脚本负责验证状态、触发API（如修改负载均衡权重）
批量操作	Ansible Playbooks	脚本本身可以是一个Ansible Playbook，批量执行效果比纯Shell脚本可控得多。

总结与建议

可以，但不建议只靠脚本做一切。 脚本非常适合做定时批量备份、一键启动/停止、状态检查这些流程化的事。
对于真正的“容灾切换”，脚本通常只是拼图的一块。 最可靠的批量容灾方案，是利用脚本调用底层成熟工具的API（如数据库同步工具、云平台SDK、K8s API）。
一定要测试，而且是可回滚的测试。 批量操作意味着一旦出错，影响面很大，先在测试环境跑通脚本，并加入 --dry-run 模式预览效果。
写脚本时，请考虑：
- 错误处理：set -e (Shell) 或 try/except (Python)。
- 日志：记录每台机器上每一步的状态。
- 超时控制：避免脚本卡死在连接不上的节点。
- 并发控制：如果服务器太多，可以用 xargs -P 10 或 asyncio 控制并发度,避免网络或API过载。

一句话结论： 实用脚本是批量容灾的执行引擎，但架构设计、数据同步工具和严格测试才是刹车和方向盘。