2015 年 1 月 23 日云代码服务故障公告

  • 时间: 2015 年 1 月 23 日凌晨 01:30 到 上午 9:30 左右,持续 8 个小时
  • 现象:部分依赖于云代码的应用的云代码请求返回 502 状态码的应答,不依赖云代码的应用没有受到影响。
  • 原因:为了对云代码部署服务做扩容,我们增加了新的部署节点,但是因为配置文件没有同步,导致新节点的服务没有正常启用,分配到该节点的部分应用受到影响。
  • 解决:在意识到是配置文件之后,我们的工程师迅速同步了配置,并重新启动了受影响的应用,服务恢复。

这次故障持续时间较长,暴露了我们在监控和告警上的短板。我们很惭愧,将做如下一些改进:

  • 针对云代码服务 502 状态应答增加报警,提高告警优先级。
  • 改进部署流程,做配置复查。
  • 改进云代码的容灾,在极端情况下,可以将受影响服务自动迁移到新节点。

发表评论

电子邮件地址不会被公开。 必填项已用*标注