11 月 22 日中国节点 API 请求异常约 50 分钟的说明

11 月 22 日中午 12:55,我们收到来自内部监控系统的报警,发现 LeanCloud 中国节点的各项服务出现异常,经过近 50 分钟的抢修,最终在 13:45 将全部服务恢复。在此时段受到影响的应用较多,这令我们感到十分愧疚,所以在此诚恳地向用户们道歉,同时我们也将免掉中国节点用户账户在 2016 年 11 月 22 日所产生的除短信外的全部费用。

以下为本次故障的详细情况和改进措施,请大家监督和反馈。

故障节点和影响范围

本次故障仅发生在中国节点,存储服务和依托于存储的聊天、云引擎等各项服务都无法正常响应。

故障时间线

  • 12:55:内部监控系统发出报警,大量存储 API 节点失去响应,随后也有开发者反馈 API 响应异常。
  • 13:11:第一次重启了所有 API 节点,系统有所好转但很快又出现了恶化。
  • 13:36:定位到故障原因,是后台服务对部分特殊请求存在漏洞,系统资源被逐渐耗尽,致使各模块都无法正常提供服务。立即实施热修复,阻断流量,再次重启所有 API 节点。
  • 13:45:所有 API 节点运行正常,开放流量,各服务恢复正常。

后续措施

  • 加大 API 节点的资源配置,以期类似不可预知的事件发生时,可以延缓状态恶化的过程,争取更长的处理时间。(11 月 24 日前完成)
  • 本次故障原因比较复杂,内部定位花费了较长时间,因此需要进一步完善对网络延迟、缓存节点等内部各环节的监控与状态展示,缩短故障排查时间。(11 月 29 日前完成)
  • 详细排查所有资源消耗的潜在问题点,对自定义的结构化数据实现更严格的限制和检查。(12 月 8 日前完成)

最后,我们由衷地感谢大家一直以来对我们的理解和支持。如有任何疑问,请发邮件至 support@leancloud.rocks 来确认。

发表评论

电子邮件地址不会被公开。 必填项已用*标注