2016 年 7 月 13 日:中国节点上部分应用的存储服务中断 48 分钟的故障说明

7 月 13 日早上 9 点左右,我们内部在使用中国节点的应用控制台时遇到报错,于是很快便定位到某一集群由于突发硬件故障而引起存储服务中断,经过抢修问题得以解决。大约一小时后正当我们在继续对该集群进行加固处理时,突然遇到流量高峰,该集群的性能逐渐下降并再次发生了故障。此次故障影响到中国节点上 20% 的应用无法使用存储及其依赖服务,如实时通信、云引擎等。美国节点不受影响。

故障时间及范围

  • 08:49 - 09:08:存储服务内部某一集群发生硬件故障,导致 20% 的应用的存储服务中断(约 19 分钟)。
  • 09:53 - 10:22:该集群受到流量冲击后性能降低并再次瘫痪(约 29 分钟)。

前后共持续约 48 分钟。

事故过程

  • 08:49:应用控制台出现报错,立即进行排查。
  • 08:56:发现某个集群硬件故障,导致集群性能不断降低,响应过于缓慢,到几乎不可用。
  • 09:08:隔离故障机器,重启相关服务后,集群慢慢恢复了正常。
  • 09:53:有大量连接涌入,堵塞了存储系统的读写队列,使得该集群性能再次下降。
  • 09:58:该集群响应过于缓慢,几乎不可用。开始阻断连接,扩充集群并重启集群上的相关服务。
  • 10:22:集群服务逐步恢复,并重新开放连接。

后续改进措施

  • 加强对集群硬件失败的监控和报警。
  • 提高自动化故障处理能力,降低系统 downtime 时间。
  • 尽快升级底层存储系统的存储引擎,减少读写队列拥塞的可能性,进一步提升服务性能。

最后,我们向这次受到影响的用户郑重地道歉。如果您有任何疑问,请发送邮件至 support@leancloud.rocks 进行确认。

2016 年 7 月 13 日:中国节点上部分应用的存储服务中断 48 分钟的故障说明》上有1条评论

  1. wsfdl

    国内 cloud 公司能提供服务状态的,贵司是少数之一;能把历史故障记录在官网而非在微博等处的,更是凤毛麟角。创始人往往决定了一家公司的文化,赞一个!

    回复

发表评论

电子邮件地址不会被公开。 必填项已用*标注