新手问题 一般 ruby 是用什么爬虫包呢?

gsky · 2014年05月13日 · 最后由 Martin91 回复于 2014年05月17日 · 4019 次阅读

大家写爬虫程序的时候一般用的什么包呢?有没有好用的可推荐下?

nokogiri 吧,watir webdriver 用来搞有 ajax 的也不错。

@dy1901 谢了,我去试试:)

只用过 nokogiri

不如用 python 吧,scrapy 很好用。但是用 python 的话怎么和 rails 结合?

Anemone +1 ,配合Machzine解析内容

用登录的就 mechanize, 不用登录的就上锯子

如果录登是 js 提交,就上 watir。

#6 楼 @wcc526 一般就会分开了吧,见过的是 python 做爬虫收集数据,Rails 只做业务系统。

恰巧搜到了这个框架wombat,看起来应该不错,提供了一套 DSL,用的时候提供一个入口,然后提供需要的 XPath 或者 Css selector,就可以提取到结构化数据了。

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册