部署蝉游记网站的部署 Nginx,Unicorn,Capistrano,OOB,Graceful Restart

quakewang · 2013年06月27日 · 最后由 liwen_zhang 回复于 2016年05月06日 · 29169 次阅读

本帖已被管理员设置为精华贴

蝉游记（ http://chanyouji.com ）网站之前用 Nginx+Passenger+ 自制 script 来部署，随着用户增多，移动 app 的 api 调用增加，服务器增多和无缝部署重启的需求，转移到了 Nginx+Unicorn+Capistrano，写篇博客记录一下各种细节和需要注意的地方。

Nginx 的配置

gzip  on;
#开启gzip，同时对于api请求的json格式也开启gzip
gzip_types application/json;

#每台机器都运行nginx+unicorn，本机用domain socket，方便切换
upstream ruby_backend {
    server unix:/tmp/unicorn.sock fail_timeout=0;
    server 10.4.8.34:4096 fail_timeout=0;
    server 10.4.3.8:4096 fail_timeout=0;
}

#用try_files方式和proxy执行rails动态请求
server {
    listen       80;
    server_name  chanyouji.com;
    root         /www/youji_deploy/current/public;

    try_files $uri/index.html $uri.html $uri @user1;

    location @user2 {
      proxy_redirect     off;
      proxy_set_header   Host $host;
      proxy_set_header   X-Forwarded-Host $host;
      proxy_set_header   X-Forwarded-Server $host;
      proxy_set_header   X-Real-IP        $remote_addr;
      proxy_set_header   X-Forwarded-For  $proxy_add_x_forwarded_for;
      proxy_buffering    on;
      proxy_pass         http://ruby_backend;
   }
}

#用不同的域名提供静态资源服务，减少主域名带来的cookie请求和方便做cdn源
server {
    listen       80;
    server_name  cdn.chanyouji.cn cdnsource.chanyouji.cn;
    root         /www/youji_deploy/current/public;

    location ~ ^/(assets)/  {
      root /www/youji_deploy/current/public;
      gzip_static on; # to serve pre-gzipped version
      expires max;
      add_header Cache-Control public;
    }
}

unicorn.rb 的配置

worker_processes 6

app_root = File.expand_path("../..", __FILE__)
working_directory app_root

# Listen on fs socket for better performance
listen "/tmp/unicorn.sock", :backlog => 64
listen 4096, :tcp_nopush => false

# Nuke workers after 30 seconds instead of 60 seconds (the default)
timeout 30

# App PID
pid "#{app_root}/tmp/pids/unicorn.pid"

# By default, the Unicorn logger will write to stderr.
# Additionally, some applications/frameworks log to stderr or stdout,
# so prevent them from going to /dev/null when daemonized here:
stderr_path "#{app_root}/log/unicorn.stderr.log"
stdout_path "#{app_root}/log/unicorn.stdout.log"

# To save some memory and improve performance
preload_app true
GC.respond_to?(:copy_on_write_friendly=) and
  GC.copy_on_write_friendly = true

# Force the bundler gemfile environment variable to
# reference the Сapistrano "current" symlink
before_exec do |_|
  ENV["BUNDLE_GEMFILE"] = File.join(app_root, 'Gemfile')
end

before_fork do |server, worker|
  # 参考 http://unicorn.bogomips.org/SIGNALS.html
  # 使用USR2信号，以及在进程完成后用QUIT信号来实现无缝重启
  old_pid = app_root + '/tmp/pids/unicorn.pid.oldbin'
  if File.exists?(old_pid) && server.pid != old_pid
    begin
      Process.kill("QUIT", File.read(old_pid).to_i)
    rescue Errno::ENOENT, Errno::ESRCH
      # someone else did our job for us
    end
  end

  # the following is highly recomended for Rails + "preload_app true"
  # as there's no need for the master process to hold a connection
  defined?(ActiveRecord::Base) and
    ActiveRecord::Base.connection.disconnect!
end

after_fork do |server, worker|
  # 禁止GC，配合后续的OOB，来减少请求的执行时间
  GC.disable
  # the following is *required* for Rails + "preload_app true",
  defined?(ActiveRecord::Base) and
    ActiveRecord::Base.establish_connection
end

GC OOB

这篇 newrelic 的文章解释很清楚： http://blog.newrelic.com/2013/05/28/unicorn-rawk-kick-gc-out-of-the-band/ 就是将 GC 延迟到用户请求完成以后，这样就会缩短响应时间，配合现成的 gem unicorn-worker-killer 也不用担心内存爆掉。

在 config.ru 里面配置：

require 'unicorn/oob_gc'
require 'unicorn/worker_killer'
#每10次请求，才执行一次GC
use Unicorn::OobGC, 10
#设定最大请求次数后自杀，避免禁止GC带来的内存泄漏（3072～4096之间随机，避免同时多个进程同时自杀，可以和下面的设定任选）
use Unicorn::WorkerKiller::MaxRequests, 3072, 4096
#设定达到最大内存后自杀，避免禁止GC带来的内存泄漏（192～256MB之间随机，避免同时多个进程同时自杀）
use Unicorn::WorkerKiller::Oom, (192*(1024**2)), (256*(1024**2))

require ::File.expand_path('../config/environment',  __FILE__)
run Youji::Application

Capistrano 部署脚本

set :unicorn_config, "#{current_path}/config/unicorn.rb"
set :unicorn_pid, "#{current_path}/tmp/pids/unicorn.pid"

namespace :deploy do
  task :start, :roles => :app, :except => { :no_release => true } do
    run "cd #{current_path} && RAILS_ENV=production bundle exec unicorn_rails -c #{unicorn_config} -D"
  end

  task :stop, :roles => :app, :except => { :no_release => true } do
    run "if [ -f #{unicorn_pid} ]; then kill -QUIT `cat #{unicorn_pid}`; fi"
  end

  task :restart, :roles => :app, :except => { :no_release => true } do
    # 用USR2信号来实现无缝部署重启
    run "if [ -f #{unicorn_pid} ]; then kill -s USR2 `cat #{unicorn_pid}`; fi"
  end
end

完成这些改进以后，部署蝉游记的新版本就只用输入 cap production deploy，然后就可以喝茶去了，也不用担心用户在重启动的时候会有短期卡死的问题 :)

补 2 张图： new relic 的监控图，和启用 OOB 之前相比，平均响应时间从 100ms 左右下降到了 90ms 左右：

服务器的内存和 CPU 使用：

168 个赞

Ruby 的多线程应用服务器介绍

论坛新人值得一看的，Ruby China 上的经典讨论贴子集合 (2016 年以前) 帮忙分析一下网站的慢查询，该怎么优化呢自己写了个 shell 脚本来替换 Capistrano，放 github 上了

teddy #0 2013年06月27日

楼主你要是早几个小时发帖我就不用转到 thin+nginx 上了 :(

uudui #1 2013年06月27日

好东西，多谢分享。

zj0713001 #2 2013年06月27日

又学了不少东西

outman #3 2013年06月27日

我一直用的就是这套 Nginx+Unicorn+Capistrano。包括个人小站（www.fxgzj.com）也是。

sharpx #4 2013年06月27日

无缝部署重启很赞

zj0713001 #5 2013年06月27日

#4 楼 @outman 求教：个人小站关闭 GC 的话对内存的压力大不大啊？个人小站 vps 内存是个瓶颈啊

loveky #6 2013年06月27日

cc @xmonkeycn

outman #7 2013年06月27日

#6 楼 @zj0713001 关闭 GC？这个还真不能关哦，楼主说的是延迟执行，如果关了内存泄露是必然的，那么多内存无法回收，不敢想象。不过像我的那个小站，非常小，延迟不延迟影响都不是很大，访问量本来就小嘛，也不会开太多的 worker，话说 Unicorn 是多进程模式，如果访问量比较大的话，估计内存就有点吃紧了，所以最好升级到 RUBY2.0，2.0 后对 GC 已经有了优化，可以利用 Linux 的 Copy on Write 技术，在一定程度上可以提高性能，节约内存，特别是读多写少的情况。

ashchan #8 2013年06月27日

果断收藏。请教 @quakewang：Unicorn 进程本身是否还用了 service 或其他监测工作，还是说 unicorn-worker-killer 也能就会系统重启等情况？谢谢！

quakewang #9 2013年06月27日

#9 楼 @ashchan unicorn 本身启动命令就是 capistrano 里面的 start 命令： "cd #{current_path} && RAILS_ENV=production bundle exec unicorn_rails -c #{unicorn_config} -D"

将他放到服务器的启动脚本里面就可以实现自动重启了。

quakewang #10 2013年06月27日

#6 楼 @zj0713001 正如#8 楼 @outman 所说，ruby2.0 开启 COW，内存使用还是可接受的，unicorn.rb 里面有这样一段：

# To save some memory and improve performance
preload_app true
GC.respond_to?(:copy_on_write_friendly=) and
  GC.copy_on_write_friendly = true

另外我在主贴，补充了 2 个图，共 3 台服务器 (每台都是 2core, 4G，监控上显示 4 台，其中一台是内部测试的），每台开 6 个 unicorn worker，平均一个 200MB 左右，如果内存紧张的话，减少 worker 和 WorkerKiller::Oom 的内存上限，1G 左右的内存 +20% 的 CPU，很轻松一台就可以支持 200 RPM。

chairy11 #11 2013年06月27日

好漂亮的网站

ashchan #12 2013年06月27日

#10 楼 @quakewang 谢谢，我也是这么用的。unicorn-worker-killer 看着非常不错！

huacnlee #13 2013年06月27日

Nginx 和 Unicorn 中间加个 Haproxy，这样有问题的时候能自动切断，还能控制分流的比例

1 个赞

quakewang #14 2013年06月27日

#14 楼 @huacnlee 是在 Nginx 之前加 Haproxy 吧？在之间加没意义啊，我们以前是这样用的，那个项目是 Nginx+Passenger，不过 Unicorn 也一样： http://quake.iteye.com/blog/1313623

zj0713001 #15 2013年06月27日

#8 楼 @outman 我的意思就是在 request 期间关闭 GC 就是延迟执行... 多谢指导哈

huacnlee #16 2013年06月27日

#15 楼 @quakewang 有意义啊，Haproxy 来管理后端的 App Server 可以更方便，而且具有更多的功能，比如根据 Cookie 强制指向某个节点

Nginx 架在前面又能自己处理静态文件

as181920 #17 2013年06月27日

cap 我在不同服务器上分不同 multistage，没用帐号名不一样，然后部署老是串用户名，明明 production 在这台机器用这个用户名，却用了 dev 这个 stage 的用户名，很头大。

mechiland #18 2013年06月27日

金数据用的技术栈几乎完全一样。用 Ruby 2.0 之后，目测内存没有增长的趋势，GC 什么的暂时就没弄。

frankel #19 2013年06月27日

好东西，赞楼主

manageyp #20 2013年06月27日

学习啦~谢谢分享！

quakewang #21 2013年06月27日

#18 楼 @as181920 我们也是分 stage 的，没出现你说的情况，不过和其他常见免密码私钥登录的方式不同，我是强制输入用户名密码的：

set(:user) do
   Capistrano::CLI.ui.ask "Give me a ssh user: "
end

不同 stage 的用户名不一样，这样也不容易搞混。

as181920 #22 2013年06月27日

#22 楼 @quakewang 有没有不同用户的 cap 配置文件给参考下，或者上面这种输入用户的也 ok。email: [email protected]

camel #23 2013年06月27日

如果用 Mina 替代 Capistrano 部署会更快

swachian #24 2013年06月27日

强悍。unicorn/worker_killer，正在寻觅的东西。

as181920 #25 2013年06月27日

#24 楼 @camel
mina 用过。简明，挺好，特别不需要 recompile assets。

对于 sidekiq 这些服务（还有一些其他的），官方默认给出 cap 的配置，用 mina 的话也可以写，不过官方有现成的可以省时间（不是懒得学，确实时间少）。这是一个原因。

steven_yue #26 2013年06月27日

如果每个 app server 都是 Nginx+Unicorn 那你们是用 DNS 切换不同的 ip 地址来实现负载均衡？

levan #27 2013年06月27日

想问一下，图片是直接上传的吗？还是改过？有利用什么又拍云什么的吗？

quakewang #28 2013年06月28日

#27 楼 @steven_yue 目前访问量还小，没用 dns 切换或者硬件，ip 是指向其中的一台，负载均衡是由这台转发到本机或者其他 2 台机器的 unicorn，可以看上面的配置：

upstream ruby_backend {
    server unix:/tmp/unicorn.sock fail_timeout=0;
    server 10.4.8.34:4096 fail_timeout=0;
    server 10.4.3.8:4096 fail_timeout=0;
}

另外 2 台的 nginx 配置也是如此，指向本机和另外 2 台机器，unicorn 同时监听 domain socket 和 tcp port:

listen "/tmp/unicorn.sock", :backlog => 64
listen 4096, :tcp_nopush => false

这样好处是，除了 upstream 的配置稍微不同以外，每台都一样，我们是用云服务的，如果要扩充就可以直接镜像一个出来。如果一台出问题，ip 指向到另外一台就可以切换过去。

quakewang #29 2013年06月28日

#28 楼 @Levan 是用七牛的，和又拍云类似，也是一个云存储的服务提供商，之前写过一篇博客介绍他们的：

http://quake.iteye.com/blog/1816807

levan #30 2013年06月28日

@quakewang 好的，感谢，想问请教下主机的情况，应为速度确实挺快看着很爽，是用阿里吗？在 alexa 查了蝉游记的 ip，一万五左右，这种带宽大概要多少？

quakewang #31 2013年06月28日

#31 楼 @Levan 主机是在 ucloud.cn，主要流量是图片，托管到七牛了，那边是按流量收费，目前费用在 500/月左右。而在主机这边带宽成本几乎是可以忽略的。

levan #32 2013年06月28日

@quakewang 知道了。感谢

liuhui998 #33 2013年06月28日

#32 楼 @quakewang 我现在也是 chanyouji 的用户（只看不发), 我身边也有人用你说流量只￥500/month（我知道七牛大概的价格）我不大相信，chayouji 不是有图片也有视频吗

amazing

liuhui998 #34 2013年06月28日

#31 楼 @Levan 蝉游记的 web 访问应是很少的，主要是 APP 用户

quakewang #35 2013年06月28日

#34 楼 @liuhui998 图片和视频经过压缩以后其实是不大的，手机上传的视频还有 30 秒限制。另外我们针对不同的分辨率使用不同尺寸的图片，所以流量费没你想象的那样多。

另外，我们的 web 访问和 app 访问都是相同服务器，而且访问量是相当的。

liuhui998 #36 2013年06月28日

#36 楼 @quakewang 你们的 APP 和网站做的真心不错

EdwardRuby #37 2013年06月28日

真心不错，学习之。

saberma #38 2013年06月28日

网站做得很棒

cod7ce #39 2013年07月01日

比起这个我觉得你们的网站做真用心啊～佩服

lilu #40 2013年07月01日

和 knewone 的技术栈几乎一样，学到了不少东西，感谢！

区别只有我们用 upyun 存图片这么一点点

imlcl #41 2013年07月01日

正。学习

42 楼已删除

young4u_amy #43 2013年07月02日

@quakewang 貌似现在网站 down 了？正想去更新游记那

quakewang #44 2013年07月02日

#44 楼 @young4u_amy 检查过是正常的啊，请问具体是什么错误？

45 楼已删除

young4u_amy #46 2013年07月02日

#45 楼 @quakewang 就是那种无法连接服务器刚试了 2 个浏览器都打不开现在好了 sorry 也可能是我的网络问题

hungyuhei #47 2013年07月02日

我的配置跟你差不多不过 Nginx 中，你是用了 try_files 配合 location @httpapp ，我是直接用 location /，这种配置之间有什么差别吗？

quakewang #48 2013年07月02日

#48 楼 @HungYuHei 区别是一些静态 html 文件或者全页缓存 html 可以由 nginx 直接来提供服务，而不用转发到 unicorn 来处理。

1 个赞

hooopo #49 2013年07月02日

#48 楼 @HungYuHei http://wiki.nginx.org/Pitfalls#Check_IF_File_Exists 和 ruby 里的 try 方法一样的语法糖。

1 个赞

hungyuhei #50 2013年07月02日

#49 楼 @quakewang #50 楼 @hooopo 学习了，谢谢

chaixl #51 2013年07月03日

@quakewang

我在一台 Staging 测试服务器上关闭 GC 以后发现一个问题：在没有 Request 的情况下，内存会持续缓慢上升，因为 unicorn-worker-killer 是通过 check_cycle 去查内存的，这种情况下，超过设定的内存上限后仍然不会 KILL 掉 WORKER，所以长时间不访问网站，内存还是有爆掉的可能？

另外，有一个疑问，在没有请求的情况下，这种出现持续的内存泄漏正常么？

quakewang #52 2013年07月03日

#52 楼 @chaixl 没测试过这个情况，不过直觉来说，如果没有请求，内存持续上升明显是不正常的。

gene_wu #53 2013年07月03日

赞！

u1360749170 #54 2013年07月07日

Bravo!

yzhrain #55 2013年07月07日

upstream ruby_backend {
    server unix:/tmp/unicorn.sock fail_timeout=0;
    server 10.4.8.34:4096 fail_timeout=0;
    server 10.4.3.8:4096 fail_timeout=0;
}

这样就可以自动负载均衡么？还是需要有别的配置？

yzhrain #56 2013年07月07日

延迟 GC 和进程自杀的配置很有用啊，非常有用的分享。

yzhrain #57 2013年07月07日

似乎 unicorn 默认是不会处理静态文件的，为了配合 try_files $uri/index.html $uri.html $uri @httpapp;

应该还要另外写一个

location ~* ^.+\.(html|htm)$ {
          expires max;
          break;
  }

来处理静态文件的。

iamzhangdabei #58 2013年07月08日

#32 楼 @quakewang 请问你们用的是 Ucloud 的云 db，还是用云主机自己搞的数据库？

1 个赞

quakewang #59 2013年07月09日

#56 楼 @yzhrain 这样配置就可以了

#59 楼 @iamzhangdabei 没有用云 db，是用云主机上运行 mariadb

iamzhangdabei #60 2013年07月09日

#60 楼 @quakewang 还想找个用过云 db 的人了解下性能怎么样呢...

aptx4869 #61 2013年07月09日

弱弱地问一下，你们这么多图片为啥都不让浏览器缓存呢，第二次访问返回 304 什么的……

quakewang #62 2013年07月09日

#62 楼 @aptx4869 所有图片都有缓存的压，请问具体是哪个图片有问题？能给一下 url，我来检查一下么。

aptx4869 #63 2013年07月09日

#63 楼 @quakewang 大概是没考虑到 F5 刷新吧……F5 强迫症的人应该挺多的…… 在 ruby-china 按 F5 图片会返回 304 不过貌似响应速度有点慢另外为啥 Server 是 Microsoft-IIS/6.0……

quakewang #64 2013年07月09日

#64 楼 @aptx4869 我们用的 CDN response 的时候是采用 ETag 和 Cache-Controller header 来实现缓存，但是好像在处理这种 F5 强制刷新的时候，没有正确返回针对 If-None-Match 的 ETag 304 响应。我和 CDN 那边的人确认一下，十分感谢。

aikko #65 2013年07月09日

我有个项目用的是 nginx+passenger，看了你的帖子以及@robbin 的帖子http://ruby-china.org/topics/10832 之后我首先部署了 nginx+unicorn，然后修改了下 unicorn 的配置文件部署 nginx+rainbows，当我在用 jMeter 进行压测，线程开到 500 的时候，无论 nginx+unicorn 还是 rainbows 都会有错误出现，而是用 passenger 却不会出现这种情况。unicorn 和 passenger 性能差不多，rainbows 并发大概可以提高 30% 左右。

quakewang #66 2013年07月10日

#64 楼 @aptx4869 CDN 提供商已经解决这个 F5 刷新的问题了，谢谢。 sever header 是自己设置的，可以快速干掉对 asp，php 等后缀扫描漏洞的远端 ip，还可以稍微迷惑一下小白黑客。

alvin2ye #67 2013年07月17日

没有用到 god 吗？

iamzhangdabei #68 2013年10月31日

问一下。 use Unicorn::WorkerKiller::Oom, (192*(1024**2)), (256*(1024**2)) 这个 192，256 指的是 RES 内存，还是 VIRT 内存

quakewang #69 2013年10月31日

#68 楼 @iamzhangdabei RES

arrix #70 2014年01月10日

unicorn.rb 中使用了FILE来定位 app_root

app_root = File.expand_path("../..", __FILE__)
working_directory app_root

注意 unicorn 启动命令中，-c #{unicorn_config} 必须写完整路径，否则 capistrano 更新 current 符号链接后，unicorn 收到 USR2 后新启 master 会使用旧的 unicorn.rb。

run "cd #{current_path} && RAILS_ENV=production bundle exec unicorn_rails -c #{unicorn_config} -D"

我测试的时候，启动命令写成 cd /var/www/myapp/current && RAILS_ENV=production bundle exec unicorn_rails -c config/unicorn.rb -D，结果 cap production deploy 后，仍然是旧代码在跑。为了减少出错，我现在把 unicorn.rb 中的 app_root 直接写死。