Access denied, Please sign in and make sure you have proper permission.

Ruby 阐述一下关于 Ruby Web Servers 的一些坑爹事实.

Saito · August 23, 2012 · Last by bruceyue replied at February 19, 2013 · 7100 hits

今天 Hack 了 WEBrick Thin Unicorn 跟 Puma.

Hack 的主要目的是：想知道关于 large request body 各个 server 是怎么处理的。以及我需要在程序中获取 request 的 body.

先说说 WEBrick:

Webrick 会将 body 一股脑的塞到 @env["rack.input"] 里面去。所以等于是没做任何处理。当然作为原生自带 server. 这种假设可以说能够接受。缺点就是别人塞超大对象。内存会爆。当然小对象可以直接获取到整个 body.

下面说说一些高端的 Server.

高端 Server 对于这方面的处理基本都遵循了一个原则，就是用 tempfile, 如果 body 大过某一个值，就会将对象写入一个临时文件里面去。如果不大于，那就直接写入 @env["rack.input"] .

先看 Thin:

Thin 里有一个的 MAX_BODY 常量是：

MAX_BODY = 1024 * (80 + 32)

也就是说有 112k.

当 body 大于 112k , 就会生成一个临时文件继续接收 body.

Thin 的 MAX_BODY 没有可配置的选项，是固定的。

Unicorn

Unicorn 也有一个 MAX_BODY 常量，Unicorn 的 MAX_BODY 是这样的：

MAX_BODY = 1024 * 112

当 body 大于 112k 的时候也会生成一个临时文件继续接受。

并且有特殊的对象去处理这个 IO. Unicorn::TempIO 并且实现了 read 等方法。

并且 Unicorn 的 MAX_BODY 是可以配置的。

Puma

Puma 内部也有一个 MAX_BODY 的常量。

是这样定义的：

MAX_HEADER = 1024 * (80 + 32)
MAX_BODY = MAX_HEADER

Puma 也用了一个特殊的对象来处理这个 IO . 叫做 Puma::NullIO.

NullIO 把自己伪装成一个 File, 但是 read 方法只会返回 nil 或者 "". 也就是说你在 NullIO 里是拿不到 body 的。

有什么意义

其实是能说明一点，当我想在程序里通过 @env['rack.input'] 或者 @request.body 获取 body 的时候：

当 body 小于 112k 的时候：

WEBrick Thin Unicorn Puma 都可以完美工作。

当 body 大于 112k 的时候：

就只有 WEBrick 跟 Unicorn 可以工作。

虽然大家都有 read 方法可以用，但是有的能读到，有的读不到的赶脚真的很差!!!

这里有一些 hack 过程的记录，有些文件的位置：https://gist.github.com/3433666

17 likes

No reference

Rack 的一些坑爹事实

valentine #0 August 23, 2012

占位

bhuztez #1 August 23, 2012

我咋觉得*sgi.input默认就是直接把 HTTP 连接的 socket file 直接映射过去，啥也别做，至于后面咋处理是应用的事情，*SGI Server不该干这件事，因为只有应用才知道这里应该是啥。

而且 CGI 就是直接把输入映射到标准输入的。

其实爆内存有难度的，HTTP Server 默认配置的上传大小是有限制的，实在不行自己设小一点嘛。当然，你不判断就把整个输入先读到内存里就是你的错了...

Saito #2 August 23, 2012

#2 楼 @bhuztez Python 系是这样的么？那后端岂不是得判断到底是 stream 还是 string. 然后用不同的方法处理。感觉还不如让 server 做了。

bhuztez #3 August 23, 2012

#3 楼 @Saito 反正我那个 Server 就是直接 env['wsgi.input'] = socket.makefile('r') 的，跑了几个礼拜也没碰到过问题。其实只有在应用层你才知道这里到底该出现啥。

应用层处理应该更好一些，对于不需要处理的请求，就不浪费时间在把它写到临时文件上面了。

Server 不知道到底是参数还是 stream。而且，文件上传会是个 multipart，你还是需要从里面提取 POST 参数的。在 Server 这层做判断，按你的说法，multipart 既可能是 stream 也可能是 string，等于没判断。再考虑到可以有一些恶意的客户端的存在，你不能根据 header 来区别 body 的内容。

Saito #4 August 23, 2012

#2 楼 @bhuztez 话说为什么大家的默认大小都是 80 + 32 这个有什么解释么？

bhuztez #5 August 23, 2012

#5 楼 @Saito 没发现有哪里定义过啊，我怀疑是互抄的

hooopo #6 August 23, 2012

#2 楼 @bhuztez 作为一个功能完备的 HTTP server 这些都需要吧，即使像静态文件处理，文件压缩什么的实际上都是 web server 来处理的。

bhuztez #7 August 23, 2012

#7 楼 @hooopo 作为HTTP Server是需要，但是作为*SGI Server不需要，因为你前面有一个反向代理在干这事，你再干一遍也没意义吧。

ashchan #8 August 23, 2012

#5 楼 @Saito 我猜可能跟 Ruby 1.8.7 之前的一个 io bug 有关。在一些系统上当文件大于 112k 时上传会失败。

1 likes

Saito #9 August 23, 2012

#9 楼 @ashchan 有趣的原因。我宁愿相信这个答案。

hooopo #10 August 23, 2012

http://unicorn.bogomips.org/KNOWN_ISSUES.html On Ruby 1.8 prior to Ruby 1.8.7-p248, *BSD platforms have a broken stdio that causes failure for file uploads larger than 112K. Upgrade your version of Ruby or continue using Unicorn 1.x/3.4.x.

2 likes

Saito #11 August 23, 2012

#11 楼 @hooopo 亮了，112k 是可以解释了。话说 80 + 32 还是个谜。

quakewang #12 August 23, 2012

不能用 body.read 么？

@request.body.read(@env['CONTENT_LENGTH'].to_i)

Saito #13 August 23, 2012

#13 楼 @quakewang Puma 的 NullIO 的 read 是这样实现的：

# Mimics IO#read with no data
#
def read(count=nil,buffer=nil)
  (count && count > 0) ? nil : ""
end

Thin 用的是 StringIO. 但是它没往里面写入。

只有 unicorn 实现了真正的 read.

def read(*args)
  @socket ? tee(super) : @tmp.read(*args)
end

Saito #14 August 23, 2012

#13 楼 @quakewang

@request.body 各个返回是不一样的。

Thin 是 StringIO

unicorn 是 Unicorn::TmpIO

Puma 是 Puma::NullIO

bhuztez #15 August 23, 2012

#15 楼 @Saito 我很怀疑 string 是因为历史原因，body 有 read 这一个接口应该就行了

quakewang #16 August 23, 2012

#15 楼 @Saito Thin 我记得是超过上限就进入临时文件: https://github.com/macournoyer/thin/blob/master/lib/thin/request.rb#L150

看上去应该是支持 read 方法的亚，现在没有开发环境，明天我测试看看

Saito #17 August 24, 2012

#17 楼 @quakewang https://github.com/macournoyer/thin/issues/126 给 Thin 提了一个 issue. 等待有人回复。

robbin #18 January 28, 2013

读取 raw post data，我现在用 request.body.gets thin/unicorn都OK，用的是rack 1.5

robbin #19 January 28, 2013

sorry，gets 只是读一行，用 read 可以读取完整的 data

Saito #20 January 28, 2013

#20 楼 @robbin read 就会碰到我原文里面的问题。

有的 Server 可以读取，有的不行。

ranmocy #21 January 29, 2013

#21 楼 @Saito 我 fork 了你的 grack 库，里面记得就是直接 read body 来获取请求的，也有这个问题么？不过 git 的 http header 应该很小就是了。

Saito #22 January 29, 2013

#22 楼 @ranmocy 如果没记错的话，在 Thin 上是不行的。用 unicorn 部署是没问题的。

我的 grack 主要是在 gitlabhq 里面实现 valid? 方法的时候用到了，主要是为了实现 gitlabhq 的权限控制。

如果没有分支权限问题的话，是不需要获取头的。https://github.com/gitlabhq/gitlabhq/blob/master/lib/gitlab/backend/grack_auth.rb#L76-L85

ranmocy #23 January 29, 2013

#23 楼 @Saito 我一直是在 Thin 上跑测试的，目前没有捕获到问题。

我说的其实是这个 read_body

话说 MIT 协议可以进入闭源软件中么？

Saito #24 January 29, 2013

#24 楼 @ranmocy 嗯，是的。这里的 read 不论什么都不会出错的。

我想起来了，貌似是之前没有 rewind.. MIT 是可以进入闭源软件的.. 基本等同于没限制。

ranmocy #25 January 29, 2013

#25 楼 @Saito 有什么区别么？难道是两个 @req 类型不一样的原因？

rewind 是用来重置流的头的是吧？我记得有个通用函数来着……

Saito #26 January 29, 2013

#26 楼 @ranmocy 嗯，这两个是没区别的。

valid? 的时候先读了一次是因为要解析 body 体，获取 git 的 push 信息.. 从而判断权限。

server.rb 内部的就不需要做这个 rewind 了。( 读过一次之后，头指针变化之后，重置头指针..

具体是什么还真有点忘记了。貌似是我最后解决了所有 Server 的 Grack 问题... 现在的版本都是没问题的。orz..

ranmocy #27 January 29, 2013

#27 楼 @Saito 当时我 hack grack 的时候各种莫名其妙的问题，git push 的时候，hooks 死活拿不到 ENV……我还把 IO.popen 改成了 Open3.popen3……

其实说实话我觉得你的 grack 写的蛮 hack 的，要一直揣摩。虽然让我写的话估计要 dirty 多了……

Saito #28 January 29, 2013

#28 楼 @ranmocy grack 本身是 Scott Chacon 写的，只不过没有认证体系。是完全开放的。

我把它封装成了一个 gem, 然后开了一个 valid? 的口子。大家就可以根据 valid? 来自己实现了。

揣摩 grack/server 其实还好。知道有那么几个 http 的接口就好了。核心是 upload-pack 跟 receive-pack. 当然这两个接口是 git 最重要的两个接口了。

bruceyue #29 February 19, 2013

如何让 Puma 支持 https 呢？

hooopo in Rack 的一些坑爹事实 mention this topic. 03 Apr 10:57

You need to Sign in before reply, if you don't have an account, please Sign up first.

17 likes

Total 30 replies

New Reply comming, click to load.