大家写爬虫程序的时候一般用的什么包呢?有没有好用的可推荐下?
nokogiri 吧,watir webdriver 用来搞有 ajax 的也不错。
@dy1901 谢了,我去试试:)
Anemone 不错的。
https://github.com/sparklemotion/mechanize
只用过 nokogiri
不如用 python 吧,scrapy 很好用。但是用 python 的话怎么和 rails 结合?
Anemone +1,配合Machzine解析内容
Anemone
Machzine
用登录的就 mechanize,不用登录的就上锯子
如果录登是 js 提交,就上 watir。
https://github.com/chriskite/anemone
#6 楼 @wcc526 一般就会分开了吧,见过的是 python 做爬虫收集数据,Rails 只做业务系统。
恰巧搜到了这个框架wombat,看起来应该不错,提供了一套 DSL,用的时候提供一个入口,然后提供需要的 XPath 或者 Css selector,就可以提取到结构化数据了。