• #5 楼 @luffycn 要不要这么吊 😄 可以的,举双手欢迎啊 只不过我觉得我的需求只是最最基本的而已啊,难道那么多开源模块都写着自己玩的?我刚刚提到的两个模块是我搜索到的最流行的两个爬虫 gem 了。。。

    python 的 scrapy 我也准备试试了,只是太大,文档太多,看得头大,这么基本的一个需求而已嘛。。。

  • 吐血了,我正想问。琢磨好久了,试了下 spidr 和 anemone,还是不能满足需求啊。

    我的需求也就是: #. 多线程或者 event io 的,不能是单线程,spidr 直接就不行了。单线程慢得要死掉了 #. 能够记录状态,当我再次启动爬虫时,能够根据上次记录的状态继续爬,而不是又从头开始,再来一遍。比如记录网页的 Last-Modified 头信息。 #. 能够提供方便的网页处理功能,这个应该都有的,就是我能很方便的获取其中的元素进行进一步的处理。

  • 以你给的网址为例,首先用 chrome 抓包工具获取到 POST 的 url 是http://www.hdfu.net/upfile.php 然后,以 ruby post 为关键字找到相关模块使用即可 如这里这里

    如果是微信公众平台,那么需要你提交 cookies 信息(session 一般也是以 sessionid 保存在 cookies 中的),那么再搜索找到相应的 http 请求 gem 即可。

  • gets 和 ARGV 的小疑问 at September 08, 2014

    #1 楼 @windwiny 请教除了官网 这里能查到这个定义之外。能否从命令行直接查询该文档? 比如 ri gets 我得到的结果跟上面的不太一样

  • ec2 free tier 一年 + cloudflare 或者 incapsula

  • 上 github 搜 ruby,然后看看热门的?

  • GitLab 整合 Redmine 的问题 at September 01, 2014

    再提炼下我的问题,比如在 rails 中,我在 controller 的一个 method 中要调用一个 B 类的实例,这个 B 类的定义放哪里比较好?如果这个 B 类跟 model 重名了,怎么办?

  • 自己回复一下。这个问题现在已经解决了。只需要在执行 ruby 命令前,先引入 rvm 环境即可。 具体在 centos 下是/etc/profile.d/rvm.sh 这个脚本。 i.e.

    #!/bin/bash source /etc/profile.d/rvm.sh bla bla....

  • #5 楼 @zj0713001 不超过 30 个啊,而且用的是淘宝源。我估计跟我们用的云主机有关?一般都是单核或者双核。我看 bundle install 的时候会调用 gcc 进行编译啊,奇怪,gem 包不都是打包好了的吗?