起航天空网站故障报告

起航天空网站故障报告




起因

最近,本人对集群服务器(3个节点)进行postfix配置的过程中,由于操作失误,造成3台服务器节点中其中2台离线,无法启动,其中包含Mysql PXC集群的一主一从、BIND DNS解析服务的一主一从、haproxy服务、redis集群节点和哨兵节点一主一从节点因系统离线而同时失效,造成以下故障:

  1. 网站Mysql数据库集群离线
  2. 网站Redis集群离线
  3. DNS解析服务故障
  4. 网站Web服务故障

修复

发现系统故障后,本人第一时间联系hostus和varmach服务器运营商,查阅可备份的数据,依各服务器节点运营商的情况采取以下紧急措施:

  1. 重装服务器系统
  2. 重装后端服务
  3. 重新配置数据
  4. 强行引导mysql PXC集群,重启集群,恢复数据

服务器系统服务停摆48小时后,完全恢复服务,本人将吸取此次教训,避免此事再次发生。

打赏

说点什么

avatar
  订阅  
提醒

扫码二维码快速访问本页

起航天空网站故障报告 – 起航天空