2015 年 5 月 30 日:查询超时及云引擎报错的故障说明

5 月 30 日下午 5 时左右,我们的工程师发现后台网络响应出现异常,于是随即进行分析与排查,及时对问题根源进行了修复。在修复期间,有用户反馈说数据存储 API 访问速度变慢,云引擎频繁报错,给业务带来了影响。具体情况说明如下。

故障时间

2015-05-30 16:45 至同日 18:50(持续约 2 小时 5 分钟)

受影响的应用

  • 2015 年新注册用户所创建的应用

受影响的服务

  • 数据存储服务(包含云引擎)
  • 消息推送服务(因为依赖对 Installation 表的查询)

未受影响的服务

  • 实时消息服务
  • 短信服务
  • 应用统计服务
  • 网站和开发文档

故障原因及补救措施

某一应用流量暴涨,由于其数据索引没有得到优化,直接导致所属服务器性能下降,堵塞了其他应用的查询请求,引起部分数据存储 API 服务调用超时。影响范围主要波及 2015 年之后注册的用户和他们创建的应用。

在为该应用添加索引后,所有服务恢复正常。

与此同时由于我们紧急故障处理电话部分设置不当,也给少量用户及时反馈问题带来了一定障碍。

我们将改进

  • 完善后台监测机制,对容易引起进程堵塞的部分应用预先进行优化,防患于未然。
  • 完善内部流程,保证紧急故障处理电话的 7×24 小时通畅。

我们对此次故障给用户造成的影响深表歉意!我们会改进流程,避免类似错误再次发生。如果您对此故障有任何疑问,请及时与我们联系。

发表评论

电子邮件地址不会被公开。 必填项已用*标注