Gem Watir+Nokogiri 爬虫抓东西的简直了

wujian_hit · 2012年11月18日 · 最后由 a167651202 回复于 2015年06月16日 · 13712 次阅读

Nokogiri 是一个非常迅捷的 XML/HTML 解析器,可以通过 Xpath 和 CSS 定位,非常方便。 Watir webdriver 新版本可以支持 linux 下 chrome,ff,opera 等浏览器的操作,敲行代码就指挥浏览器自动化执行。 这两个 gem 搭配 open-uri 抓了很多有趣的图。比构造 http 头方便多了。

安装命令都是 gem install ×××××哦~ 具体用法详见 Nokogiri: http://ruby.bastardsbook.com/chapters/html-parsing/ Watir webdriver: 安装方法:https://github.com/zeljkofilipin/watirbook/blob/master/installation/ubuntu.md 使用详情:百度文库一大堆讲的都是 ie 的不过方法是一样的哦,巨简单~

楼主给的第一个博客之前看过,还挺不错的,他还是个很不错的摄影爱好者,有一个姊妹版的教摄影的站。 顶一个~

2 楼 已删除

#1 楼 @Tony612 酱紫啊,我都没看看他的周边呢,会好好关注下的。还有此帖是我 rubychina 的处女贴哦~得到回复好嗨森嘞~

国内一些不规则的网站 nokogiri 会 parse 错误(不是异常)

#4 楼 @jasl 只在小范围试了下水,还没遇到过,不知道 Hpricot 怎么样。

nokogiri 是用的 libxml2 的库,只适合解析 well format 的页面 而且比 hpricot 慢

@wujian_hit 有朋友测试过 比如百度贴吧 node jquery还有py的也不好使。。。有c#或者java的效果比较好

有没有人做过抓国内相册的啊? 或者有兴趣做?

#7 楼 @jasl 酱紫啊,好吧,不规范的代码。

#6 楼 @yakczh 沒试过 hpricot 不过大家都好像很推荐 nokogiri~

Watir webdriver:这个用来做爬虫,实在是太慢了。

#8 楼 @xmonkeycn 抓过网易相册

#11 楼 @johnnyhg watir 是有点慢,应付一般的 case 表现还可以哦~

#13 楼 @wujian_hit 如果是大批量抓取或者实时抓取,就排不上用场了。

#14 楼 @johnnyhg 那请教一下在这种情况下有什么好的解决方法吗?有些网页用了大量的 ajax 局部加载进来,构造 url 或者 tcp 头获取的可能得不到有用的信息,只是框架的 htm 和一大堆 js。

#12 楼 @ywencn 有没有代码可以分享一下么? 谢谢拉。

#15 楼 @wujian_hit 对于无法获得 url 的局部 ajax,你是怎么处理的呀

mechanize 也很棒

问问楼主,ajax 请求是咋处理的,发现在服务器环境加上了 headless 之后,js 生成的 content 无法获取,如果没有 headless 的话,一切 ok

#23 楼 @naitnix 仁兄。我也遇到了同样的问题。不知道你是否解决了 headless 不加载 js 的问题。。。

需要 登录 后方可回复, 如果你还没有账号请 注册新账号