Gem Watir+Nokogiri 爬虫抓东西的简直了

wujian_hit · November 18, 2012 · Last by a167651202 replied at June 16, 2015 · 13848 hits

Nokogiri 是一个非常迅捷的 XML/HTML 解析器，可以通过 Xpath 和 CSS 定位，非常方便。 Watir webdriver 新版本可以支持 linux 下 chrome，ff，opera 等浏览器的操作，敲行代码就指挥浏览器自动化执行。这两个 gem 搭配 open-uri 抓了很多有趣的图。比构造 http 头方便多了。

安装命令都是 gem install ×××××哦～具体用法详见 Nokogiri： http://ruby.bastardsbook.com/chapters/html-parsing/ Watir webdriver: 安装方法：https://github.com/zeljkofilipin/watirbook/blob/master/installation/ubuntu.md 使用详情：百度文库一大堆讲的都是 ie 的不过方法是一样的哦，巨简单～

15 likes

tony612 #0 November 18, 2012

楼主给的第一个博客之前看过，还挺不错的，他还是个很不错的摄影爱好者，有一个姊妹版的教摄影的站。顶一个～

1 Floor has deleted

wujian_hit #2 November 18, 2012

#1 楼 @Tony612 酱紫啊，我都没看看他的周边呢，会好好关注下的。还有此帖是我 rubychina 的处女贴哦～得到回复好嗨森嘞～

jasl #3 November 18, 2012

国内一些不规则的网站 nokogiri 会 parse 错误（不是异常）

wujian_hit #4 November 18, 2012

#4 楼 @jasl 只在小范围试了下水，还没遇到过，不知道 Hpricot 怎么样。

yakczh #5 November 18, 2012

nokogiri 是用的 libxml2 的库，只适合解析 well format 的页面而且比 hpricot 慢

jasl #6 November 18, 2012

@wujian_hit 有朋友测试过比如百度贴吧 node jquery还有py的也不好使。。。有c#或者java的效果比较好

xmonkeycn #7 November 18, 2012

有没有人做过抓国内相册的啊？或者有兴趣做？

wujian_hit #8 November 21, 2012

#7 楼 @jasl 酱紫啊，好吧，不规范的代码。

wujian_hit #9 November 21, 2012

#6 楼 @yakczh 沒试过 hpricot 不过大家都好像很推荐 nokogiri～

johnnyhg #10 November 29, 2012

Watir webdriver：这个用来做爬虫，实在是太慢了。

ywencn #11 November 29, 2012

#8 楼 @xmonkeycn 抓过网易相册

wujian_hit #12 November 29, 2012

#11 楼 @johnnyhg watir 是有点慢，应付一般的 case 表现还可以哦～

johnnyhg #13 November 29, 2012

#13 楼 @wujian_hit 如果是大批量抓取或者实时抓取，就排不上用场了。

wujian_hit #14 November 29, 2012

#14 楼 @johnnyhg 那请教一下在这种情况下有什么好的解决方法吗？有些网页用了大量的 ajax 局部加载进来，构造 url 或者 tcp 头获取的可能得不到有用的信息，只是框架的 htm 和一大堆 js。

1 likes

johnnyhg #15 November 30, 2012

#15 楼 @wujian_hit https://github.com/chriskite/anemone 你可以看看这个。

wujian_hit #16 December 02, 2012

#16 楼 @johnnyhg 谢啦

xmonkeycn #17 December 02, 2012

#12 楼 @ywencn 有没有代码可以分享一下么？谢谢拉。

bydeath #18 November 09, 2013

#15 楼 @wujian_hit 对于无法获得 url 的局部 ajax，你是怎么处理的呀

xiaogui #19 November 09, 2013

mechanize 也很棒

wujian_hit #20 November 09, 2013

#19 楼 @bydeath http://ruby-china.org/topics/14084 请看这里和讨论。

bydeath #21 November 09, 2013

#21 楼 @wujian_hit 谢谢了

naitnix #22 February 26, 2015

问问楼主，ajax 请求是咋处理的，发现在服务器环境加上了 headless 之后，js 生成的 content 无法获取，如果没有 headless 的话，一切 ok

a167651202 #23 June 16, 2015

#23 楼 @naitnix 仁兄。我也遇到了同样的问题。不知道你是否解决了 headless 不加载 js 的问题。。。

You need to Sign in before reply, if you don't have an account, please Sign up first.

15 likes

Total 24 replies

New Reply comming, click to load.