公告关于2011年11月20日晚上宕机三小时

lgn21st · November 20, 2011 · Last by zhuangbiaowei replied at February 07, 2012 · 3563 hits

今天晚上 8 点左右，盛大云 MongoIC 服务出现问题，导致系统宕机三小时。

在发现问题后，我们联系上了盛大的 @zhuangbiaowei，他在最短时间帮助我们联系上了相关的维护人员，不过恢复仍然花费了几个小时。我们相信是由于盛大云刚起步，仍然需要在系统稳定性和维护方面积累更多经验。当然这个论坛也处于起步阶段，希望以后能够跟盛大云一起共同成长，并再也不发生类似的问题。

我们仍然需要一个应急备份方案，当再次出现类似的问题后，立即能够得到通知关人员，并在网站上给出用户必要的信息。当后台服务如 MongoIC 回复后能够立即自动重新启动后台 Rails 服务。

现在我们的做法是当出现问题后，手动关闭后台 Rails server，访问显示 HTTP 503 Timeout，这个错误信息不够友好。

1 likes

los #0 November 20, 2011

这个宕机频率也实在太高了吧，不清楚 rails 的人还以为是 rails 开发的程序这么的不稳定呢。。。

lgn21st #1 November 20, 2011

#1 楼 @Los 的确，近期两次比较长时间宕机，对于一个收费的服务来说是相当麻烦的事情，盛大方面一再向我们表示歉意，我们继续使用并观察一段时间吧。毕竟比自行管理 MongoDB，使用云服务要节约不少的时间精力。

zhuangbiaowei #2 November 20, 2011

非常抱歉，我们会不断改进，尽可能的避免发生这样的故障。多谢@lgn21st 的谅解！

Rei #3 November 20, 2011

#3 楼 @zhuangbiaowei 我比较好奇是什么原因导致故障，然后 MongoIC 如何避免重蹈覆辙。把这个问题的解决更公开一点，对 MongoIC 长远发展有利，因为客户可以从中观察工作人员的责任心如何、服务是否可靠，这是成长为优秀服务的必经一步。

nowazhu #4 November 20, 2011

我的云主机今天 Down 了一天了，囧。

los #5 November 20, 2011

#2 楼 @lgn21st 如果不是相当大的数据量，自己管理 MongoDB 应该也不是很麻烦的事情吧？ ^_^ 当然，如果是为了试用更多的云服务那么就是另一回事。

huacnlee #6 November 21, 2011

#6 楼 @Los 我看该考虑展示将 MongoDB 移出来自己管理了

los #7 November 21, 2011

#7 楼 @huacnlee 我刚好有介绍了一个新手进 ruby-china.org 看看，然后他觉得这经常不能访问，终于在这次宕机过程中跟着对我说了句"rails 开发的网站好像不是很稳定啊，经常挂断，现在又挂掉了。。" =_="

Rei #8 November 21, 2011

#8 楼 @Los 太悲剧了 =。=

andrew_qx #9 November 21, 2011

昨天又宕机了阿..唉盛大赞助这个网站也是想做推广...这样反而成反面宣传了

huacnlee #10 November 21, 2011

今晚我把数据库移出到 VPS 里面跑吧，这样至少会稳定很多，目前宕机都是 MongoIC 引起的。

lgn21st #11 November 21, 2011

#11 楼 @huacnlee 也是，我们目前的数据规模和主机资源空间看来足够我们自己跑 MongoDB。那就迁移出来吧。给这么多关注 ruby-china.org 网站的老手新手们造成不便，真太不好意思了。

changtimwu #12 November 21, 2011

頭兩次來拜訪也是 timeout, 本來再也不想來，第三次連上來才發現討論品質極高，之後就每天拜訪了。

huacnlee #13 November 21, 2011

#13 楼 @changtimwu 看起来这个稳定的问题确实会让很多人走掉啊

zhuangbiaowei #14 November 21, 2011

#5 楼 @nowazhu 你的虚拟主机的内网 IP 是什么？我让同事去查一下。

ichord #15 February 04, 2012

@huacnlee 是不是可以做个简单的主从。

huacnlee #16 February 04, 2012

#16 楼 @ichord 现在没这么多资源另外这个是老贴了，现在在 VPS 上面跑的，一直很稳定。

xds2000 #17 February 04, 2012

@zhuangbiaowei ,我给盛大云提个建设性意见吧。不管是当机还是不可用的问题，在云服务里是一个非常常见的问题，一般给用户的感觉就是不爽。Amanzon 已经给过很多案例，即使到现在来看，这个问题也没有完全可用的解决方案。所以各家云服务商搞出一个 Status 页，及时报告在首页上。比如亚马逊： http://status.aws.amazon.com/ Heroku: https://status.heroku.com/

拿一个盛大云的惯例维护帖子，http://www.grandcloud.cn/index/show/171 这种维护都需要放在一个专页上，并在首页给一个单独分类让用户直接能知道。和其他新闻放在一起，用户根本不会关心，但一但让他们不爽就要开始怀疑服务质量。补救总是很痛苦的。

国内做云计算，受很多限制，能占上一脚也都是不容易。加油，向国外云服务质量靠近吧。

ghostm55 #18 February 04, 2012

支持国内的这些服务，大家要多提优秀的意见让我们自己的产业发达起来

zhuangbiaowei #19 February 07, 2012

#18 楼 @xds2000 多谢建议，我转到盛大云去。

You need to Sign in before reply, if you don't have an account, please Sign up first.

1 likes

Total 20 replies

New Reply comming, click to load.

公告 关于2011年11月20日晚上宕机三小时

公告 关于2011年11月20日晚上宕机三小时

公告关于2011年11月20日晚上宕机三小时

公告关于2011年11月20日晚上宕机三小时