灾备恢复需同步权限、路径、排除规则、设备校验、mysql配置及时间校准:rsync须用sudo并检查斜杠与exclude;dd前需lsblk/pvs/blockdev校验设备;mysql需更新bind-address与socket路径;chronyd -x平滑校时。

灾备恢复时 rsync 同步失败:权限、路径、排除规则全踩过一遍
灾备演练里最常卡在恢复环节,不是备份没做,而是 rsync 一跑就报错。常见现象是目标目录空空如也,或只同步了部分文件,rsync: failed to set times on "xxx": Operation not permitted 这类错误反复出现。
根本原因不是命令写错了,而是没区分清楚运行上下文:备份机上用 root 备份的归档,恢复到另一台机器时若用普通用户执行 rsync,连 --archive 都会失效——它依赖 chown 和 chmod 权限,普通用户压根没这能力。
- 恢复必须用
sudo rsync,且目标路径得是可写、可 chown 的目录(比如/mnt/restore,别直接往/usr或/etc里硬怼) -
--exclude规则在恢复端要重审:备份时排除了/proc,但恢复时如果忘了加--exclude='/proc',rsync可能试图创建空目录甚至触发挂载点异常 - 路径末尾斜杠决定语义:
rsync -a /backup/ /mnt/restore/是“把里面内容放进去”,而/backup(无斜杠)会把整个backup目录复制过去——灾备恢复通常要前者
用 dd 恢复磁盘镜像时设备节点识别不准
灾备镜像如果是整盘 dd if=/dev/sda of=backup.img 做的,恢复时不能想当然地 dd if=backup.img of=/dev/sdb 就完事。真实环境里,/dev/sdb 可能是 USB 盘、NVMe 设备或 LVM PV,dd 不校验设备大小,写爆了就真爆了。
更隐蔽的问题是:恢复前没 lsblk 确认目标设备是否处于未挂载、未被 LVM/MD 使用的状态,dd 写入过程中若内核还在读这个设备,轻则数据错乱,重则设备离线。
- 恢复前必做三件事:
lsblk -f查挂载点、pvs/vgs查 LVM 占用、cat /proc/mounts | grep sdb确认无残留挂载 - 用
blockdev --getsize64 /dev/sdb对比stat -c "%s" backup.img,确保镜像大小 ≤ 目标设备容量,否则提前 abort - 加
conv=noerror,sync不解决根本问题,只是让dd忽略 I/O 错误继续跑——灾备恢复不允许“差不多”
MySQL 主从切换后应用连不上:不是密码错,是 bind-address 和 socket 路径没动
灾备演练里切 MySQL 主库,应用报 Can't connect to MySQL server,第一反应改密码、开远程访问,其实八成是配置没随角色迁移。
主库切走后,新主库的 my.cnf 里 bind-address 还是 127.0.0.1,或者 socket 路径指向旧实例的 /var/lib/mysql.sock,应用用 socket 连就直接失败;用 TCP 连又因 bind 地址限制被拒。
- 灾备恢复脚本里必须包含配置项更新:
sed -i 's/bind-address = 127\.0\.0\.1/bind-address = 0\.0\.0\.0/' /etc/my.cnf,并确认skip-networking已注释 - 检查
socket路径是否和mysql --socket=参数一致,尤其当多实例共存时,ps aux | grep mysqld看实际启动参数比看配置文件更可靠 - 重启前先
mysqld --defaults-file=/etc/my.cnf --validate-config,避免配置语法错误导致服务起不来
恢复后时间不同步引发证书/日志/认证全链路失效
灾备机长期离线,系统时间可能比生产环境慢几小时甚至几天。恢复后不校准时间,后果比想象中严重:HTTPS 证书提示“Not valid yet”,chronyd 拒绝同步,systemd-journald 日志时间戳乱序,Kerberos 认证直接拒绝——这些都不是独立故障,是同一个根因。
用 ntpdate 强制同步看似快,但在生产环境已被弃用,且会跳变时间,对数据库事务、定时任务都构成风险。
- 必须用
chronyd的-x模式平滑调整:chronyd -x -d -f /etc/chrony.conf,等几秒看到System clock wrong by ... seconds提示后再正式启用服务 - 验证是否生效:
chronyc tracking看Offset是否收敛到毫秒级,timedatectl status确认System clock synchronized: yes - 注意 NTP 服务器地址是否随网络环境变化:灾备网段可能没有访问外网 NTP 的权限,得提前配好内网时间源
灾备恢复不是“把东西拷过去就完了”,每个组件的时间、权限、路径、网络上下文都得重新对齐。最容易被忽略的是那些不报错但悄悄失效的部分——比如证书有效期、日志轮转策略、SELinux 上下文,它们不会拦住恢复流程,却会在上线后某个凌晨突然爆发。










