Gem 大家有没有用过 Nokogiri 抓取复杂 web 页面的信息阿

Unknow user · April 17, 2012 · Last by funfriend replied at June 11, 2012 · 3225 hits

最近偶然接触到 nokogiri，看了一天的例程（虽然官网搞不开）。心血来潮，想试试在 web 上抓取点东西，实践一下。我是在新浪首页实验的，想抓点新闻什么的，可是 html 太复杂，不好下手。主要是因为 CSS 的问题，无法确定到我想要的内容，不是有其他的杂质，就是内容不够全。哪位大虾有过此类经历，给提个建议呗

camel #0 April 17, 2012

我抓取网站所有百度快照的代码可以参考一下。 https://github.com/camsong/cache_spider

ruby_sky #1 April 17, 2012

抓取新闻吧，还有图片。

hunter #2 April 17, 2012

建议用 mechanize，封装了 nokogiri，采集到一些心得：碰到一些古怪的页面，就会让你抓狂，简单的网页就如同切西瓜般轻松。

有些没有办法，只好用自己到正则表达式来抓，效率很低

donnior #3 April 18, 2012

如果你只是针对某个特定的网站来抓，问题不大吧，搞清楚 html 结构再结合 xpath 之类，解析比较容易，我曾经用 nokogiri 把一个网页里面我需要的 javascript 数据都弄下来了；如果要针对一堆网站抓数据，可以参考一些算法之类的，不管具体的 html 结构而采用统一的方法分析；我也尝试过，抓取的准确性还不错。

Unknow user #4 June 11, 2012

@donnior 不知道您指的算法有没有可参考的？

You need to Sign in before reply, if you don't have an account, please Sign up first.