2015 年 12 月 25 日:数据存储服务系统故障说明

12 月 25 日凌晨 5 点 30 分至上午 8 点整,数据存储服务器的某一分片突然发生故障,导致所属的 1468 个应用无法向云端写入数据。我们在 5 点半收到报警后着手开始处理故障,最终在 8 点修复了这一问题,故障时间共持续 2 小时 30 分钟。

故障期间,受到影响的应用无法向云端保存和更新数据,但仍可以进行查询,并可使用不依赖于数据存储服务的其他功能。其它应用和服务均不受影响。

故障发生的直接原因,在于出现问题的分片上的处理超时查询的服务工作异常,从而导致该分片上的存储进程的网络连接数缓慢增加,最终耗尽系统资源而导致存储进程异常退出。在多个副本节点产生异常之后,该分片最终变为只读模式。问题排查定位之后,我们手动恢复了这个分片。

改进措施

  • 系统:调整了内核参数和资源上限,增强存储集群的健壮性。
  • 监控:增加对分片是否可写的检查,并改进报警机制,以缩减响应时间。
  • 评估其他存储引擎和优化方案,减少故障恢复时间。

我们向受到此次故障影响的用户表示诚挚的道歉!我们会进一步完善流程,避免类似错误再次发生。如果您对此故障有任何疑问,请联系 support@leancloud.rocks

发表评论

电子邮件地址不会被公开。 必填项已用*标注