容灾不是备份,别搞混了
很多人觉得,定期备份配置文件、数据库,就等于做了容灾。其实差得远。备份是事后恢复,容灾是事中切换。比如你公司主线路断了,备用线路能不能在3分钟内自动顶上?这才是容灾的核心。
我见过一家电商公司,双十一前没做容灾演练,结果核心交换机故障,整个网站瘫痪40分钟,订单损失直接上百万。他们倒是做了备份,可恢复时间太长,用户早跑光了。
从网络结构入手设计冗余
最基础的做法是双链路出口。比如你用电信主线路,那就再拉一条联通或移动的线路,通过BGP协议实现自动切换。配置示例:
router bgp 65001
network 203.0.113.0 mask 255.255.255.0
neighbor 203.0.113.1 remote-as 4809
neighbor 203.0.114.1 remote-as 4810
maximum-paths 2这样即使一条运营商线路中断,流量会自动走另一条。
核心设备别单点运行
交换机、防火墙这些关键设备,必须堆叠或做HA(高可用)。比如华为的堆叠技术CSS,能把两台S5700逻辑上变成一台,某台坏了也不影响业务。配置命令类似:
stack
stack member 1 domain 10
stack member 2 domain 10
interface stack-port 1/1
port interface XGigabitEthernet0/0/1 enable思科的HSRP也是常用方案,让两台路由器共享一个虚拟IP,主挂了备机立刻接替。
DNS层面也要有预案
很多人忽略DNS的容灾。建议至少接入两家DNS服务商,比如同时用阿里云DNS和腾讯云DNS,域名NS记录指向两边。万一其中一家解析出问题,另一半还能撑住。
还可以设置低TTL值,比如300秒,这样故障时能快速切换到备用IP。
定期“搞破坏”才能放心
做过一次真实演练才知道准备够不够。我们团队每季度会故意拔掉核心设备电源,看监控告警是否及时,切换是否顺畅。有一次发现备用防火墙策略没同步,当场暴露问题,比真出事时才发现强多了。
容灾不是一劳永逸的事,网络结构变了、业务上线了,都得重新评估。把它当成日常运维的一部分,而不是应付检查的摆设。