2016 年 2 月 19 日:云服务中断半小时的故障说明

2016 月 2 月 19 下午 3 点左右,LeanCloud 所有服务突然不可用。我们的报警系统即刻捕捉到异常并发出告警,我们由此进行紧急修复,于半小时后将全部服务恢复到正常运行状态。此次故障影响范围较大,性质严重,我们将详细情况汇报如下。

故障时间

15:17 至 15:50(持续约 33 分钟)

影响范围

除了单纯的静态网站托管服务未受影响之外,其他所有服务,包括结构化数据存储、文件存储、云引擎、聊天、短信、推送、统计等功能都暂时无法使用。

故障处理时间线

  • 15:17:我们在部署新服务时无意触发了一项误操作,但并未意识到由此会导致上述服务停止。
  • 15:17:我们在同一时间接到系统监控报警,经检查发现 LeanCloud 网站无法登录,API 服务日志也已中断,同时有部分用户也向我们反馈,确认了服务已不可用。
  • 15:19:我们随即启动回滚操作,所有服务陆续开始重启。
  • 15:25:API 等服务逐步启动,但是流量还没对外开放。
  • 15:30:开放 API 流量, 数据存储服务以及依赖于它的云引擎服务开始逐步恢复。继而聊天、统计、推送服务也逐步恢复。
  • 15:50:所有服务恢复正常。

后续改进措施

  1. 贯彻执行故障通报流程 :由于本次故障事发突然,影响面广,我们一直专注在恢复服务上,却疏忽了与用户及时沟通问题和进展这一已有流程。我们深知在故障期间这一流程对用户来说至关重要,所以我们今后会切实执行这一流程,明确故障通报的负责人和替补人、通报时机、通报内容、通报渠道(如邮件或短信)等。
  2. 对部署服务进行权限和功能上的细分 :限制其操作的影响范围,杜绝一条指令导致所有服务停止运转的情况。
  3. 完善后台管理系统 :确保管理系统的所有操作都增加了确认环节,确保操作者知道操作的后果,并手动进行确认。

这次由于我们的工作失误而引发了大范围的服务中断,我们在此向大家深切地道歉。 同时为了表达我们的歉意,我们会免掉所有应用在 2 月 19 日除短信服务之外产生的全部费用。 我们将在后续几日进行退费操作,退费完成时,您将收到账户余额变动的邮件通知,请耐心等待。具体金额届时也可以通过 控制台 > 交易历史 > 优惠和赠送 查询。

如果您有任何疑问,请写信至 support@leancloud.cn。希望大家保持信心继续使用我们的服务,我们一定会不断努力,保证服务的稳定。

2016 年 2 月 19 日:云服务中断半小时的故障说明》上有1条评论

  1. 阿涛

    改进措施中没有提到如何改进测试流程,难道你们上线前不在准生产环境中(或仿真环境)测试吗?完善的测试流程是能提前避免这种问题的。

    回复

发表评论

电子邮件地址不会被公开。 必填项已用*标注