2016 年 3 月 29 日晚间,LeanCloud 平台上的多个应用进行了推广活动,激增的访问量给我们的数据存储和实时通信服务带来了较大压力。从 20:50 至 22:15 有多次流量高峰出现,我们多台 Web 服务器的网络吞吐包超过虚拟机的能力极限,内外网通信中断,从而导致 HTTP 服务多次出现间歇性故障(数据存储 API 以及依赖于它的服务也都间歇性不可用)。具体情况汇报如下:
故障时间
20:53 - 21:03
(持续约 10 分钟)数据存储 API 服务约 50% 的请求超时。21:17 - 21:40
(持续约 23 分钟)数据存储 API 服务约 50% 的请求超时。22:00 - 22:15
(持续约 15 分钟)数据存储 API 服务约 12.5% 的请求超时。
故障总共持续约 48 分钟。
影响范围
本次故障只影响中国节点,美国节点的所有服务均工作正常。在故障期间凡是向 LeanCloud 平台发送过请求,并使用了数据存储服务的活跃应用都受到了影响;我们的统计服务也在短时间内无法正常接收来自应用的事件上报。