分类目录归档:故障

4 月 6 日 LeanCloud 中国节点因底层服务商的故障而引发部分服务中断 38 分钟的说明

2017 年 4 月 6 日 22:19,我们收到内部告警,发现中国节点的 API 服务出现了响应超时。在调查过程中,我们收到了来自底层服务提供商的通知,证实了中国节点所在的数据中心因部分网络设备异常而发生了容灾切换,导致部分 IP 不可访问,从而影响到部分 LeanCloud 服务(包括数据存储、REST API 和 LeanCloud 官网)无法使用,底层服务商已在紧急修复相关机房的网络故障。

与此同时,云引擎与实时通信服务并未受到任何影响,一直正常提供服务。此外,故障仅发生在中国节点,美国节点和腾讯节点及其之上的所有服务也都正常。截至到 22:57,根据我们的服务状态报告,中国节点的各项服务均恢复了正常。

继续阅读

2 月 22 日晚间云引擎日志、推送记录和统计数据部分丢失的说明

2017 年 2 月 22 日将近 18:00,我们在进行后端集群维护的过程中发现一个集群在重启后无法正常上线,影响了统计数据的存储,统计的数据接收 API 不再响应。同时统计服务也承担了云引擎日志、推送记录的写入,以及相关记录的 REST API 查询功能,所以事故期间,统计数据、云引擎日志和推送记录都会有不同程度的丢失。但是存储、聊天、云引擎等核心服务和业务数据并未受到影响,请大家放心。

我们连夜对该集群进行修复,待部分数据恢复后,其服务于凌晨 0 点开始恢复,但仍有一定比例的请求会失败。直至次日凌晨 5 点所有数据得以修复后,统计服务完全恢复健康。故障期间,推送记录和云引擎日志约有 75% 的记录丢失,数据收集和实时展示基本不可用。由于统计数据不完整,所以最终统计的相关指标也会有所下降。

继续阅读

11 月 22 日中国节点 API 请求异常约 50 分钟的说明

11 月 22 日中午 12:55,我们收到来自内部监控系统的报警,发现 LeanCloud 中国节点的各项服务出现异常,经过近 50 分钟的抢修,最终在 13:45 将全部服务恢复。在此时段受到影响的应用较多,这令我们感到十分愧疚,所以在此诚恳地向用户们道歉,同时我们也将免掉中国节点用户账户在 2016 年 11 月 22 日所产生的除短信外的全部费用。

以下为本次故障的详细情况和改进措施,请大家监督和反馈。

继续阅读

2016 年 10 月 17 日:骨干网网络故障引发 LeanCloud 服务超时的说明

根据底层 IaaS 服务提供商报告,10 月 17 日 14:58 开始,中国南北骨干网线路外网电信线路出现网络异常,南北电信互访可能有 50% 以上的丢包现象,这导致终端用户访问 LeanCloud 服务时可能出现超时错误。

我们紧急联系并督促 IaaS 服务商于 15:12 切换出口线路到联通网络,此后丢包率下降到 3% 左右,但延迟会稍有上升(至 20ms)。电信运营商确认这一事故为深圳至北京部分链路省外光缆可能出现了中断,正在全力抢修中。我们会持续关注这一问题,并督促上游服务商尽快解决故障。

如果有任何疑问,请发邮件至 support@leancloud.rocks 来咨询。

2016 年 8 月 5 日:中国节点存储系统中断约半小时的故障说明

8 月 5 日晚上 7 点 10 分开始,LeanCloud 中国节点上的某一缓存集群因为流量过大,CPU 资源被占满而停止了服务,从而导致数据存储及依赖它的服务(云引擎、推送、实时聊天)出现约半小时的中断,在此期间有部分应用可能会遇到请求无法完成的情况。详细报告如下。

故障节点和影响范围

只有中国节点出现了问题,受影响的服务与时间段列举如下,其他服务未受到影响。

服务名区域受影响时段范围
数据存储中国19:10 – 19:41全部不可用
云引擎中国19:10 – 19:41全部不可用
实时通信中国19:10 – 19:41部分不可用(消息 hook 功能不可用、离线推送延迟)
消息推送中国19:10 – 20:02推送大面积延迟
统计服务中国19:10 – 20:23全部不可用(数据收集接口关闭)

继续阅读

2016 年 7 月 13 日:中国节点上部分应用的存储服务中断 48 分钟的故障说明

7 月 13 日早上 9 点左右,我们内部在使用中国节点的应用控制台时遇到报错,于是很快便定位到某一集群由于突发硬件故障而引起存储服务中断,经过抢修问题得以解决。大约一小时后正当我们在继续对该集群进行加固处理时,突然遇到流量高峰,该集群的性能逐渐下降并再次发生了故障。此次故障影响到中国节点上 20% 的应用无法使用存储及其依赖服务,如实时通信、云引擎等。美国节点不受影响。

继续阅读

2016 年 6 月 30 日:实时通信服务故障报告

6 月 30 日晚上 8 点左右,我们的实时通信服务发生了故障,导致大量应用的终端用户无法登录和发送消息,时间持续约 40 分钟,详细情况汇总如下。

故障时间

19:58 - 20:41(共计 43 分钟)

影响范围

LeanCloud 国内节点的实时通信服务受到影响(无法登录和发送消息),其它服务正常;美国节点一切服务正常。

事故经过

  • 19:58 一组负责实时通信服务数据统计的缓存机器发生故障,导致用户登录或发送消息出现阻塞,类似操作开始消耗内部线程池资源;
  • 20:05 线程池资源耗尽,所有用户登录过程都会失败;
  • 20:22 确定了故障原因,开始重启缓存服务程序,但是服务程序所在机器因为压力过大失去响应,转而重启物理机器;
  • 20:33 缓存服务恢复正常,登录和发消息等请求开始恢复正常(为了加速我们新增了部分实时通信服务程序,以增加响应能力);
  • 20:41 实时通信服务恢复正常。
    下图中的黄线是故障时段前后的登录请求数量变化趋势曲线,与上述故障时间线吻合:
    scrot

后续改进措施

  • 聊天服务监控程序改由 Marathon 来自动部署并执行。该监控程序因前期的一次操作而被暂停,结果未能捕捉到此次服务异常,所以我们加入程序化的手段来保证其始终运行。(已完成)
  • 增加对统计数据缓存服务的监控。(已完成)
  • 增加对于登录请求数异常变化的监控。(已完成)
  • 进一步优化实时通信服务的架构,针对所有环节做好容错,防止类似的阻塞操作再次出现。(一周内解决)

最后我们诚恳地向受到本次故障影响的用户道歉。我们会让后续改进措施快速落实到位,努力为大家提供稳定而快速的云服务。如果您有任何疑问,请发送邮件至 support@leancloud.cn 进行确认。