公告 关于2011年11月20日晚上宕机三小时

lgn21st · 2011年11月20日 · 最后由 zhuangbiaowei 回复于 2012年02月07日 · 3471 次阅读

今天晚上 8 点左右,盛大云 MongoIC 服务出现问题,导致系统宕机三小时。

在发现问题后,我们联系上了盛大的 @zhuangbiaowei,他在最短时间帮助我们联系上了相关的维护人员,不过恢复仍然花费了几个小时。我们相信是由于盛大云刚起步,仍然需要在系统稳定性和维护方面积累更多经验。当然这个论坛也处于起步阶段,希望以后能够跟盛大云一起共同成长,并再也不发生类似的问题。

我们仍然需要一个应急备份方案,当再次出现类似的问题后,立即能够得到通知关人员,并在网站上给出用户必要的信息。当后台服务如 MongoIC 回复后能够立即自动重新启动后台 Rails 服务。

现在我们的做法是当出现问题后,手动关闭后台 Rails server,访问显示 HTTP 503 Timeout,这个错误信息不够友好。

这个宕机频率也实在太高了吧,不清楚 rails 的人还以为是 rails 开发的程序这么的不稳定呢。。。

#1 楼 @Los 的确,近期两次比较长时间宕机,对于一个收费的服务来说是相当麻烦的事情,盛大方面一再向我们表示歉意,我们继续使用并观察一段时间吧。毕竟比自行管理 MongoDB,使用云服务要节约不少的时间精力。

非常抱歉,我们会不断改进,尽可能的避免发生这样的故障。 多谢@lgn21st 的谅解!

#3 楼 @zhuangbiaowei 我比较好奇是什么原因导致故障,然后 MongoIC 如何避免重蹈覆辙。把这个问题的解决更公开一点,对 MongoIC 长远发展有利,因为客户可以从中观察工作人员的责任心如何、服务是否可靠,这是成长为优秀服务的必经一步。

我的云主机今天 Down 了一天了,囧。

#2 楼 @lgn21st 如果不是相当大的数据量,自己管理 MongoDB 应该也不是很麻烦的事情吧? ^_^ 当然,如果是为了试用更多的云服务那么就是另一回事。

#6 楼 @Los 我看该考虑展示将 MongoDB 移出来自己管理了

#7 楼 @huacnlee 我刚好有介绍了一个新手进 ruby-china.org 看看,然后他觉得这经常不能访问,终于在这次宕机过程中跟着对我说了句"rails 开发的网站好像不是很稳定啊,经常挂断,现在又挂掉了。。" =_="

#8 楼 @Los 太悲剧了 =。=

昨天又宕机了阿..唉 盛大赞助这个网站也是想做推广...这样反而成反面宣传了

今晚我把数据库移出到 VPS 里面跑吧,这样至少会稳定很多,目前宕机都是 MongoIC 引起的。

#11 楼 @huacnlee 也是,我们目前的数据规模和主机资源空间看来足够我们自己跑 MongoDB。那就迁移出来吧。给这么多关注 ruby-china.org 网站的老手新手们造成不便,真太不好意思了。

頭兩次來拜訪也是 timeout, 本來再也不想來,第三次連上來才發現討論品質極高,之後就每天拜訪了。

#13 楼 @changtimwu 看起来这个稳定的问题确实会让很多人走掉啊

#5 楼 @nowazhu 你的虚拟主机的内网 IP 是什么?我让同事去查一下。

@huacnlee 是不是可以做个简单的主从。

#16 楼 @ichord 现在没这么多资源 另外这个是老贴了,现在在 VPS 上面跑的,一直很稳定。

@zhuangbiaowei ,我给盛大云提个建设性意见吧。不管是当机还是不可用的问题,在云服务里是一个非常常见的问题,一般给用户的感觉就是不爽。Amanzon 已经给过很多案例,即使到现在来看,这个问题也没有完全可用的解决方案。所以各家云服务商搞出一个 Status 页,及时报告在首页上。 比如亚马逊: http://status.aws.amazon.com/ Heroku: https://status.heroku.com/

拿一个盛大云的惯例维护帖子,http://www.grandcloud.cn/index/show/171 这种维护都需要放在一个专页上,并在首页给一个单独分类让用户直接能知道。和其他新闻放在一起,用户根本不会关心,但一但让他们不爽就要开始怀疑服务质量。补救总是很痛苦的。

国内做云计算,受很多限制,能占上一脚也都是不容易。加油,向国外云服务质量靠近吧。

支持国内的这些服务,大家要多提优秀的意见让我们自己的产业发达起来

#18 楼 @xds2000 多谢建议,我转到盛大云去。

需要 登录 后方可回复, 如果你还没有账号请 注册新账号