分类目录归档:故障

关于 7 月 31 日 AppSo 应用的部分用户收到重复推送的说明及致歉

7 月 31 日下午,我们收到爱范儿团队的通知了解到他们发布的 AppSo 应用部分用户在中午 12 点之后的半小时里收到了多至 27 次的重复推送通知。我们的工程师在当天下午定位了故障原因:我们在给大量用户推送时会遍历数据库来逐批发送推送,在这个过程中如果有已发送推送的设备记录发生更新,就可能再次出现在遍历过程中,更详细的技术性说明可以参考 StackOverflow 的这篇帖子 。触发这个条件的情况非常少见,但导致了这次推送故障。目前我们已经实现了防止类似情况发生的措施。

这次故障打扰了 AppSo 的很多用户,并给 AppSo 运营团队的工作带来了困扰。我们在此向他们诚挚道歉。

4 月 6 日 LeanCloud 中国节点因底层服务商的故障而引发部分服务中断 38 分钟的说明

2017 年 4 月 6 日 22:19,我们收到内部告警,发现中国节点的 API 服务出现了响应超时。在调查过程中,我们收到了来自底层服务提供商的通知,证实了中国节点所在的数据中心因部分网络设备异常而发生了容灾切换,导致部分 IP 不可访问,从而影响到部分 LeanCloud 服务(包括数据存储、REST API 和 LeanCloud 官网)无法使用,底层服务商已在紧急修复相关机房的网络故障。

与此同时,云引擎与实时通信服务并未受到任何影响,一直正常提供服务。此外,故障仅发生在中国节点,美国节点和腾讯节点及其之上的所有服务也都正常。截至到 22:57,根据我们的服务状态报告,中国节点的各项服务均恢复了正常。

继续阅读

2 月 22 日晚间云引擎日志、推送记录和统计数据部分丢失的说明

2017 年 2 月 22 日将近 18:00,我们在进行后端集群维护的过程中发现一个集群在重启后无法正常上线,影响了统计数据的存储,统计的数据接收 API 不再响应。同时统计服务也承担了云引擎日志、推送记录的写入,以及相关记录的 REST API 查询功能,所以事故期间,统计数据、云引擎日志和推送记录都会有不同程度的丢失。但是存储、聊天、云引擎等核心服务和业务数据并未受到影响,请大家放心。

我们连夜对该集群进行修复,待部分数据恢复后,其服务于凌晨 0 点开始恢复,但仍有一定比例的请求会失败。直至次日凌晨 5 点所有数据得以修复后,统计服务完全恢复健康。故障期间,推送记录和云引擎日志约有 75% 的记录丢失,数据收集和实时展示基本不可用。由于统计数据不完整,所以最终统计的相关指标也会有所下降。

继续阅读

11 月 22 日中国节点 API 请求异常约 50 分钟的说明

11 月 22 日中午 12:55,我们收到来自内部监控系统的报警,发现 LeanCloud 中国节点的各项服务出现异常,经过近 50 分钟的抢修,最终在 13:45 将全部服务恢复。在此时段受到影响的应用较多,这令我们感到十分愧疚,所以在此诚恳地向用户们道歉,同时我们也将免掉中国节点用户账户在 2016 年 11 月 22 日所产生的除短信外的全部费用。

以下为本次故障的详细情况和改进措施,请大家监督和反馈。

继续阅读

2016 年 10 月 17 日:骨干网网络故障引发 LeanCloud 服务超时的说明

根据底层 IaaS 服务提供商报告,10 月 17 日 14:58 开始,中国南北骨干网线路外网电信线路出现网络异常,南北电信互访可能有 50% 以上的丢包现象,这导致终端用户访问 LeanCloud 服务时可能出现超时错误。

我们紧急联系并督促 IaaS 服务商于 15:12 切换出口线路到联通网络,此后丢包率下降到 3% 左右,但延迟会稍有上升(至 20ms)。电信运营商确认这一事故为深圳至北京部分链路省外光缆可能出现了中断,正在全力抢修中。我们会持续关注这一问题,并督促上游服务商尽快解决故障。

如果有任何疑问,请发邮件至 support@leancloud.rocks 来咨询。

2016 年 8 月 5 日:中国节点存储系统中断约半小时的故障说明

8 月 5 日晚上 7 点 10 分开始,LeanCloud 中国节点上的某一缓存集群因为流量过大,CPU 资源被占满而停止了服务,从而导致数据存储及依赖它的服务(云引擎、推送、实时聊天)出现约半小时的中断,在此期间有部分应用可能会遇到请求无法完成的情况。详细报告如下。

故障节点和影响范围

只有中国节点出现了问题,受影响的服务与时间段列举如下,其他服务未受到影响。

服务名区域受影响时段范围
数据存储中国19:10 – 19:41全部不可用
云引擎中国19:10 – 19:41全部不可用
实时通信中国19:10 – 19:41部分不可用(消息 hook 功能不可用、离线推送延迟)
消息推送中国19:10 – 20:02推送大面积延迟
统计服务中国19:10 – 20:23全部不可用(数据收集接口关闭)

继续阅读

2016 年 7 月 13 日:中国节点上部分应用的存储服务中断 48 分钟的故障说明

7 月 13 日早上 9 点左右,我们内部在使用中国节点的应用控制台时遇到报错,于是很快便定位到某一集群由于突发硬件故障而引起存储服务中断,经过抢修问题得以解决。大约一小时后正当我们在继续对该集群进行加固处理时,突然遇到流量高峰,该集群的性能逐渐下降并再次发生了故障。此次故障影响到中国节点上 20% 的应用无法使用存储及其依赖服务,如实时通信、云引擎等。美国节点不受影响。

继续阅读