今天晚上 8 点左右,盛大云 MongoIC 服务出现问题,导致系统宕机三小时。
在发现问题后,我们联系上了盛大的 @zhuangbiaowei,他在最短时间帮助我们联系上了相关的维护人员,不过恢复仍然花费了几个小时。我们相信是由于盛大云刚起步,仍然需要在系统稳定性和维护方面积累更多经验。当然这个论坛也处于起步阶段,希望以后能够跟盛大云一起共同成长,并再也不发生类似的问题。
我们仍然需要一个应急备份方案,当再次出现类似的问题后,立即能够得到通知关人员,并在网站上给出用户必要的信息。当后台服务如 MongoIC 回复后能够立即自动重新启动后台 Rails 服务。
现在我们的做法是当出现问题后,手动关闭后台 Rails server,访问显示 HTTP 503 Timeout,这个错误信息不够友好。
#3 楼 @zhuangbiaowei 我比较好奇是什么原因导致故障,然后 MongoIC 如何避免重蹈覆辙。把这个问题的解决更公开一点,对 MongoIC 长远发展有利,因为客户可以从中观察工作人员的责任心如何、服务是否可靠,这是成长为优秀服务的必经一步。
@zhuangbiaowei ,我给盛大云提个建设性意见吧。不管是当机还是不可用的问题,在云服务里是一个非常常见的问题,一般给用户的感觉就是不爽。Amanzon 已经给过很多案例,即使到现在来看,这个问题也没有完全可用的解决方案。所以各家云服务商搞出一个 Status 页,及时报告在首页上。 比如亚马逊: http://status.aws.amazon.com/ Heroku: https://status.heroku.com/
拿一个盛大云的惯例维护帖子,http://www.grandcloud.cn/index/show/171 这种维护都需要放在一个专页上,并在首页给一个单独分类让用户直接能知道。和其他新闻放在一起,用户根本不会关心,但一但让他们不爽就要开始怀疑服务质量。补救总是很痛苦的。
国内做云计算,受很多限制,能占上一脚也都是不容易。加油,向国外云服务质量靠近吧。