Gem 大家有没有用过 Nokogiri 抓取复杂 web 页面的信息阿

匿名 · 2012年04月17日 · 最后由 funfriend 回复于 2012年06月11日 · 3227 次阅读

最近偶然接触到 nokogiri，看了一天的例程（虽然官网搞不开）。心血来潮，想试试在 web 上抓取点东西，实践一下。我是在新浪首页实验的，想抓点新闻什么的，可是 html 太复杂，不好下手。主要是因为 CSS 的问题，无法确定到我想要的内容，不是有其他的杂质，就是内容不够全。哪位大虾有过此类经历，给提个建议呗

camel #0 2012年04月17日

我抓取网站所有百度快照的代码可以参考一下。 https://github.com/camsong/cache_spider

ruby_sky #1 2012年04月17日

抓取新闻吧，还有图片。

hunter #2 2012年04月17日

建议用 mechanize，封装了 nokogiri，采集到一些心得：碰到一些古怪的页面，就会让你抓狂，简单的网页就如同切西瓜般轻松。

有些没有办法，只好用自己到正则表达式来抓，效率很低

donnior #3 2012年04月18日

如果你只是针对某个特定的网站来抓，问题不大吧，搞清楚 html 结构再结合 xpath 之类，解析比较容易，我曾经用 nokogiri 把一个网页里面我需要的 javascript 数据都弄下来了；如果要针对一堆网站抓数据，可以参考一些算法之类的，不管具体的 html 结构而采用统一的方法分析；我也尝试过，抓取的准确性还不错。

匿名 #4 2012年06月11日

@donnior 不知道您指的算法有没有可参考的？

需要登录后方可回复, 如果你还没有账号请注册新账号