分类目录归档:故障

2016 年 6 月 30 日:实时通信服务故障报告

6 月 30 日晚上 8 点左右,我们的实时通信服务发生了故障,导致大量应用的终端用户无法登录和发送消息,时间持续约 40 分钟,详细情况汇总如下。

故障时间

19:58 - 20:41(共计 43 分钟)

影响范围

LeanCloud 国内节点的实时通信服务受到影响(无法登录和发送消息),其它服务正常;美国节点一切服务正常。

事故经过

  • 19:58 一组负责实时通信服务数据统计的缓存机器发生故障,导致用户登录或发送消息出现阻塞,类似操作开始消耗内部线程池资源;
  • 20:05 线程池资源耗尽,所有用户登录过程都会失败;
  • 20:22 确定了故障原因,开始重启缓存服务程序,但是服务程序所在机器因为压力过大失去响应,转而重启物理机器;
  • 20:33 缓存服务恢复正常,登录和发消息等请求开始恢复正常(为了加速我们新增了部分实时通信服务程序,以增加响应能力);
  • 20:41 实时通信服务恢复正常。
    下图中的黄线是故障时段前后的登录请求数量变化趋势曲线,与上述故障时间线吻合:
    scrot

后续改进措施

  • 聊天服务监控程序改由 Marathon 来自动部署并执行。该监控程序因前期的一次操作而被暂停,结果未能捕捉到此次服务异常,所以我们加入程序化的手段来保证其始终运行。(已完成)
  • 增加对统计数据缓存服务的监控。(已完成)
  • 增加对于登录请求数异常变化的监控。(已完成)
  • 进一步优化实时通信服务的架构,针对所有环节做好容错,防止类似的阻塞操作再次出现。(一周内解决)

最后我们诚恳地向受到本次故障影响的用户道歉。我们会让后续改进措施快速落实到位,努力为大家提供稳定而快速的云服务。如果您有任何疑问,请发送邮件至 support@leancloud.cn 进行确认。

2016 年 4 月 22 日:中国节点存储服务故障说明

2016 年 4 月 22 日 13:04 开始,LeanCloud 中国节点的后端存储集群出现问题,导致该节点上所有应用都出现了存储 API 访问故障,将近半小时后得到恢复。故障的详细经过通报如下。

故障时间

  • 13:09-13:28 所有应用的数据存储服务都出现访问异常(持续 19 分钟)
  • 13:28-13:40 大部分应用已经恢复,但还有 20% 的应用依然无法正常访问(持续 12 分钟)

影响范围

中国节点上所有应用的存储服务都受到影响,同时依赖于数据存储的实时通信、云引擎服务也可能出现内部错误。
美国节点不受影响,所有服务均工作正常。

继续阅读

2016 年 4 月 5 日:中国节点受到 DDoS 恶意攻击的故障说明

2016 年 4 月 5 日 20:19 开始,api.leancloud.cn 域名受到混合型 DDoS 攻击,致使用户无法从外网访问中国节点 API 服务,造成数据存储、统计、推送、短信等服务全部访问中断,历时约一小时。此次服务中断给大量应用造成了严重影响,在此,我们以最诚恳的态度向大家道歉,并附上具体的故障报告。

故障时间

20:19 ~ 21:25(持续约 66 分钟)

影响范围

  • 中国节点的数据存储、统计、推送、短信等服务不可访问,云引擎和实时通信(不包括调用 API 查询「对话」等操作)服务不受影响。
  • 美国节点的所有服务未受任何影响。

继续阅读

2016 年 3 月 29 日:数据存储服务响应缓慢的故障说明

2016 年 3 月 29 日晚间,LeanCloud 平台上的多个应用进行了推广活动,激增的访问量给我们的数据存储和实时通信服务带来了较大压力。从 20:50 至 22:15 有多次流量高峰出现,我们多台 Web 服务器的网络吞吐包超过虚拟机的能力极限,内外网通信中断,从而导致 HTTP 服务多次出现间歇性故障(数据存储 API 以及依赖于它的服务也都间歇性不可用)。具体情况汇报如下:

故障时间

  • 20:53 - 21:03(持续约 10 分钟)数据存储 API 服务约 50% 的请求超时。
  • 21:17 - 21:40(持续约 23 分钟)数据存储 API 服务约 50% 的请求超时。
  • 22:00 - 22:15(持续约 15 分钟)数据存储 API 服务约 12.5% 的请求超时。

故障总共持续约 48 分钟。

影响范围

本次故障只影响中国节点,美国节点的所有服务均工作正常。在故障期间凡是向 LeanCloud 平台发送过请求,并使用了数据存储服务的活跃应用都受到了影响;我们的统计服务也在短时间内无法正常接收来自应用的事件上报。

继续阅读

2016 年 3 月 24 日:中国节点文件存储故障说明

2016 年 3 月 24 日下午 2:24,LeanCloud 的文件存储及 CDN 上游服务商之一受到了恶意攻击,导致 LeanCloud 中国节点的部分应用无法正常访问文件。当日晚上 8 点服务商修复了故障,LeanCloud 的文件存储随即恢复正常。

故障时间

14:24 至 19:55(持续约 5 小时 31 分钟)

影响范围

使用中国节点、在故障期间有文件访问请求的部分应用受到了影响。中国节点上的其他服务,如结构化数据存储、云引擎、聊天、短信、推送、统计等均未受影响。美国节点一切正常。

继续阅读

2016 年 2 月 26 日:聊天服务短暂异常的故障说明

2016 年 2 月 26 日下午五点左右,我们的聊天服务出现了短暂异常,导致部分终端用户在获取指定聊天记录时,可能会得到整个应用的聊天记录。此次故障持续了十多分钟,具体情况如下。

故障时间

16:45 至 16:58(持续约 13 分钟)

影响范围

使用了聊天服务,且在服务异常期间发生了聊天记录查询请求的所有应用

继续阅读

2016 年 2 月 19 日:云服务中断半小时的故障说明

2016 月 2 月 19 下午 3 点左右,LeanCloud 所有服务突然不可用。我们的报警系统即刻捕捉到异常并发出告警,我们由此进行紧急修复,于半小时后将全部服务恢复到正常运行状态。此次故障影响范围较大,性质严重,我们将详细情况汇报如下。

故障时间

15:17 至 15:50(持续约 33 分钟)

影响范围

除了单纯的静态网站托管服务未受影响之外,其他所有服务,包括结构化数据存储、文件存储、云引擎、聊天、短信、推送、统计等功能都暂时无法使用。

继续阅读