吐血了,我正想问。琢磨好久了,试了下 spidr 和 anemone,还是不能满足需求啊。
我的需求也就是: #. 多线程或者 event io 的,不能是单线程,spidr 直接就不行了。单线程慢得要死掉了 #. 能够记录状态,当我再次启动爬虫时,能够根据上次记录的状态继续爬,而不是又从头开始,再来一遍。比如记录网页的 Last-Modified 头信息。 #. 能够提供方便的网页处理功能,这个应该都有的,就是我能很方便的获取其中的元素进行进一步的处理。
以你给的网址为例,首先用 chrome 抓包工具获取到 POST 的 url 是http://www.hdfu.net/upfile.php 然后,以 ruby post 为关键字找到相关模块使用即可 如这里和这里
如果是微信公众平台,那么需要你提交 cookies 信息(session 一般也是以 sessionid 保存在 cookies 中的),那么再搜索找到相应的 http 请求 gem 即可。
ec2 free tier 一年 + cloudflare 或者 incapsula
上 github 搜 ruby,然后看看热门的?
再提炼下我的问题,比如在 rails 中,我在 controller 的一个 method 中要调用一个 B 类的实例,这个 B 类的定义放哪里比较好?如果这个 B 类跟 model 重名了,怎么办?
自己回复一下。这个问题现在已经解决了。只需要在执行 ruby 命令前,先引入 rvm 环境即可。 具体在 centos 下是/etc/profile.d/rvm.sh 这个脚本。 i.e.
#!/bin/bash source /etc/profile.d/rvm.sh bla bla....
#5 楼 @zj0713001 不超过 30 个啊,而且用的是淘宝源。我估计跟我们用的云主机有关?一般都是单核或者双核。我看 bundle install 的时候会调用 gcc 进行编译啊,奇怪,gem 包不都是打包好了的吗?