今天 (2014-04-17) 推送和云代码服务故障说明

上一篇博客有提到, 今天凌晨电信网络切割, 我们知道会遇到一些问题, 如部分地区或部分运营商的用户会有一段时间的无法访问, 推送消息失败等.
比如北京移动用户无法访问等 (到傍晚才恢复). 这些网络割接的引起的跨网连接问题, 慢慢才会恢复, 我们也无力吐嘈了.

故障时间

2014-04-17 00:57 到 2014-04-17 12:35 (没有算网络切割时间窗口)

受到影响的服务

  • 推送服务:无法收到消息
  • 云代码服务:云代码中依赖于非大陆地区服务的功能全部失效
  • 技术支持系统: ticket 邮件通知失效

未受到影响的服务

  • API 服务
  • 数据存储服务
  • 应用统计服务
  • 网站和开发文档

故障原因

由于电信网络割接, 电信出口 (服务器的默认出口) 到美国/香港等非大陆地区的网络无法连通 (国内正常), 从而无法推送消息给 iOS 设备, 无法从 GitHub/BitBucket 等获取代码等. 并且由于 iOS 推送消息失败, 导致消息队列积压, 从而影响了 Android 用户的推送.

我们在查明故障原因后, 立即联系了华为机房, 并开始恢复服务, 我们在华为的配合下, 开始将服务器默认网络出口切换到联通,12:12 服务部分开始恢复, 到 12:35 全部恢复.

我们将改进

  • 对类似网络切割提前做好网络切换准备
  • 告警服务改进
  • 对此次相关的点添加监控
  • 将推送队列按设备类型分开
  • 提供多 IDC 给开发者选择

此次故障, 对受到影响的开发者和用户, 表示非常非常的抱歉.