xdz0611 (sh) · Replies

ruby 有没有象 python 的 scrapy 那样的爬虫框架 at November 19, 2014

#5 楼 @luffycn 要不要这么吊可以的，举双手欢迎啊只不过我觉得我的需求只是最最基本的而已啊，难道那么多开源模块都写着自己玩的？我刚刚提到的两个模块是我搜索到的最流行的两个爬虫 gem 了。。。

python 的 scrapy 我也准备试试了，只是太大，文档太多，看得头大，这么基本的一个需求而已嘛。。。

ruby 有没有象 python 的 scrapy 那样的爬虫框架 at November 19, 2014

吐血了，我正想问。琢磨好久了，试了下 spidr 和 anemone，还是不能满足需求啊。

我的需求也就是： #. 多线程或者 event io 的，不能是单线程，spidr 直接就不行了。单线程慢得要死掉了 #. 能够记录状态，当我再次启动爬虫时，能够根据上次记录的状态继续爬，而不是又从头开始，再来一遍。比如记录网页的 Last-Modified 头信息。 #. 能够提供方便的网页处理功能，这个应该都有的，就是我能很方便的获取其中的元素进行进一步的处理。

curl 或者 ruby 等等语言怎么模拟 flash 上传图片 at November 19, 2014

以你给的网址为例，首先用 chrome 抓包工具获取到 POST 的 url 是http://www.hdfu.net/upfile.php 然后，以 ruby post 为关键字找到相关模块使用即可如这里和这里

如果是微信公众平台，那么需要你提交 cookies 信息（session 一般也是以 sessionid 保存在 cookies 中的），那么再搜索找到相应的 http 请求 gem 即可。

gets 和 ARGV 的小疑问 at September 08, 2014

#1 楼 @windwiny 请教除了官网这里能查到这个定义之外。能否从命令行直接查询该文档？比如 ri gets 我得到的结果跟上面的不太一样

Ucloud 说不接受我这个类型的业务，请问给本地教会做的网站放在哪里合适？ at September 08, 2014

ec2 free tier 一年 + cloudflare 或者 incapsula

新手除了 Rails 还有哪些 Ruby 实践方法推荐？ at September 01, 2014

上 github 搜 ruby，然后看看热门的？

GitLab 整合 Redmine 的问题 at September 01, 2014

再提炼下我的问题，比如在 rails 中，我在 controller 的一个 method 中要调用一个 B 类的实例，这个 B 类的定义放哪里比较好？如果这个 B 类跟 model 重名了，怎么办？

怎样在启动脚本中使用 rvm 环境？ at June 14, 2014

自己回复一下。这个问题现在已经解决了。只需要在执行 ruby 命令前，先引入 rvm 环境即可。具体在 centos 下是/etc/profile.d/rvm.sh 这个脚本。 i.e.

#!/bin/bash source /etc/profile.d/rvm.sh bla bla....

怎样快速解决 Gemfile 中的依赖关系 at March 04, 2014

#5 楼 @zj0713001 不超过 30 个啊，而且用的是淘宝源。我估计跟我们用的云主机有关？一般都是单核或者双核。我看 bundle install 的时候会调用 gcc 进行编译啊，奇怪，gem 包不都是打包好了的吗？