Gem 大家有没有用过 Nokogiri 抓取复杂 web 页面的信息阿

Unknow user · April 17, 2012 · Last by funfriend replied at June 11, 2012 · 3144 hits

最近偶然接触到 nokogiri,看了一天的例程(虽然官网搞不开)。 心血来潮,想试试在 web 上抓取点东西,实践一下。 我是在新浪首页实验的,想抓点新闻什么的,可是 html 太复杂,不好下手。主要是因为 CSS 的问题,无法确定到我想要的内容,不是有其他的杂质,就是内容不够全。 哪位大虾有过此类经历,给提个建议呗

我抓取网站所有百度快照的代码可以参考一下。 https://github.com/camsong/cache_spider

抓取新闻吧,还有图片。

建议用 mechanize,封装了 nokogiri, 采集到一些心得:碰到一些古怪的页面,就会让你抓狂,简单的网页就如同切西瓜般轻松。

有些没有办法,只好用自己到正则表达式来抓,效率很低

如果你只是针对某个特定的网站来抓,问题不大吧,搞清楚 html 结构再结合 xpath 之类,解析比较容易,我曾经用 nokogiri 把一个网页里面我需要的 javascript 数据都弄下来了; 如果要针对一堆网站抓数据,可以参考一些算法之类的,不管具体的 html 结构而采用统一的方法分析;我也尝试过,抓取的准确性还不错。

Unknow user #5 June 11, 2012

@donnior 不知道您指的算法有没有可参考的?

You need to Sign in before reply, if you don't have an account, please Sign up first.