2016 年 8 月 5 日:中国节点存储系统中断约半小时的故障说明

8 月 5 日晚上 7 点 10 分开始,LeanCloud 中国节点上的某一缓存集群因为流量过大,CPU 资源被占满而停止了服务,从而导致数据存储及依赖它的服务(云引擎、推送、实时聊天)出现约半小时的中断,在此期间有部分应用可能会遇到请求无法完成的情况。详细报告如下。

故障节点和影响范围

只有中国节点出现了问题,受影响的服务与时间段列举如下,其他服务未受到影响。

服务名区域受影响时段范围
数据存储中国19:10 – 19:41全部不可用
云引擎中国19:10 – 19:41全部不可用
实时通信中国19:10 – 19:41部分不可用(消息 hook 功能不可用、离线推送延迟)
消息推送中国19:10 – 20:02推送大面积延迟
统计服务中国19:10 – 20:23全部不可用(数据收集接口关闭)

故障时间线

  • 19:10:内部监控报警,确认 redis 异常(CPU 资源占满,失去响应)。
  • 19:13:redis 机器无法直接重启,开始尝试逐步关停其他服务(依次是推送、聊天推送、云引擎、统计),以降低请求压力。
  • 19:41:redis 集群恢复可用,同时数据存储、云引擎和实时通信三个服务开始恢复。
  • 20:02:消息推送服务开始恢复,redis 集群运行正常。
  • 20:23:成功为统计服务单独搭建 redis 集群,统计服务的数据收集接口开放,新老 redis 集群运行正常。至此所有服务全部恢复。

后续措施

  • 将该 redis 集群从业务层面进行拆分,小集群化。
  • 将 redis 集群进行高可用架构升级,避免单点故障。
  • 对集群加强容灾演练,确保异常条件下服务稳定。

对于本次故障,我们诚恳地向您道歉。我们将免掉您账户中全部应用在 8 月 5 日当天的所有费用,以表诚意。

如果您对此次事件有任何疑问,请发邮件至 support@leancloud.rocks 来咨询。

发表评论

电子邮件地址不会被公开。 必填项已用*标注