Gem Watir+Nokogiri 爬虫抓东西的简直了

wujian_hit · 2012年11月18日 · 最后由 a167651202 回复于 2015年06月16日 · 13848 次阅读

Nokogiri 是一个非常迅捷的 XML/HTML 解析器，可以通过 Xpath 和 CSS 定位，非常方便。 Watir webdriver 新版本可以支持 linux 下 chrome，ff，opera 等浏览器的操作，敲行代码就指挥浏览器自动化执行。这两个 gem 搭配 open-uri 抓了很多有趣的图。比构造 http 头方便多了。

安装命令都是 gem install ×××××哦～具体用法详见 Nokogiri： http://ruby.bastardsbook.com/chapters/html-parsing/ Watir webdriver: 安装方法：https://github.com/zeljkofilipin/watirbook/blob/master/installation/ubuntu.md 使用详情：百度文库一大堆讲的都是 ie 的不过方法是一样的哦，巨简单～

15 个赞

tony612 #0 2012年11月18日

楼主给的第一个博客之前看过，还挺不错的，他还是个很不错的摄影爱好者，有一个姊妹版的教摄影的站。顶一个～

1 楼已删除

wujian_hit #2 2012年11月18日

#1 楼 @Tony612 酱紫啊，我都没看看他的周边呢，会好好关注下的。还有此帖是我 rubychina 的处女贴哦～得到回复好嗨森嘞～

jasl #3 2012年11月18日

国内一些不规则的网站 nokogiri 会 parse 错误（不是异常）

wujian_hit #4 2012年11月18日

#4 楼 @jasl 只在小范围试了下水，还没遇到过，不知道 Hpricot 怎么样。

yakczh #5 2012年11月18日

nokogiri 是用的 libxml2 的库，只适合解析 well format 的页面而且比 hpricot 慢

jasl #6 2012年11月18日

@wujian_hit 有朋友测试过比如百度贴吧 node jquery还有py的也不好使。。。有c#或者java的效果比较好

xmonkeycn #7 2012年11月18日

有没有人做过抓国内相册的啊？或者有兴趣做？

wujian_hit #8 2012年11月21日

#7 楼 @jasl 酱紫啊，好吧，不规范的代码。

wujian_hit #9 2012年11月21日

#6 楼 @yakczh 沒试过 hpricot 不过大家都好像很推荐 nokogiri～

johnnyhg #10 2012年11月29日

Watir webdriver：这个用来做爬虫，实在是太慢了。

ywencn #11 2012年11月29日

#8 楼 @xmonkeycn 抓过网易相册

wujian_hit #12 2012年11月29日

#11 楼 @johnnyhg watir 是有点慢，应付一般的 case 表现还可以哦～

johnnyhg #13 2012年11月29日

#13 楼 @wujian_hit 如果是大批量抓取或者实时抓取，就排不上用场了。

wujian_hit #14 2012年11月29日

#14 楼 @johnnyhg 那请教一下在这种情况下有什么好的解决方法吗？有些网页用了大量的 ajax 局部加载进来，构造 url 或者 tcp 头获取的可能得不到有用的信息，只是框架的 htm 和一大堆 js。

1 个赞

johnnyhg #15 2012年11月30日

#15 楼 @wujian_hit https://github.com/chriskite/anemone 你可以看看这个。

wujian_hit #16 2012年12月02日

#16 楼 @johnnyhg 谢啦

xmonkeycn #17 2012年12月02日

#12 楼 @ywencn 有没有代码可以分享一下么？谢谢拉。

bydeath #18 2013年11月09日

#15 楼 @wujian_hit 对于无法获得 url 的局部 ajax，你是怎么处理的呀

xiaogui #19 2013年11月09日

mechanize 也很棒

wujian_hit #20 2013年11月09日

#19 楼 @bydeath http://ruby-china.org/topics/14084 请看这里和讨论。

bydeath #21 2013年11月09日

#21 楼 @wujian_hit 谢谢了

naitnix #22 2015年02月26日

问问楼主，ajax 请求是咋处理的，发现在服务器环境加上了 headless 之后，js 生成的 content 无法获取，如果没有 headless 的话，一切 ok

a167651202 #23 2015年06月16日

#23 楼 @naitnix 仁兄。我也遇到了同样的问题。不知道你是否解决了 headless 不加载 js 的问题。。。

需要登录后方可回复, 如果你还没有账号请注册新账号

15 个赞

共收到 24 条回复

收到新回复，点击立即加载