最近偶然接触到 nokogiri,看了一天的例程(虽然官网搞不开)。 心血来潮,想试试在 web 上抓取点东西,实践一下。 我是在新浪首页实验的,想抓点新闻什么的,可是 html 太复杂,不好下手。主要是因为 CSS 的问题,无法确定到我想要的内容,不是有其他的杂质,就是内容不够全。 哪位大虾有过此类经历,给提个建议呗
我抓取网站所有百度快照的代码可以参考一下。 https://github.com/camsong/cache_spider
抓取新闻吧,还有图片。
建议用 mechanize,封装了 nokogiri, 采集到一些心得:碰到一些古怪的页面,就会让你抓狂,简单的网页就如同切西瓜般轻松。
有些没有办法,只好用自己到正则表达式来抓,效率很低
如果你只是针对某个特定的网站来抓,问题不大吧,搞清楚 html 结构再结合 xpath 之类,解析比较容易,我曾经用 nokogiri 把一个网页里面我需要的 javascript 数据都弄下来了; 如果要针对一堆网站抓数据,可以参考一些算法之类的,不管具体的 html 结构而采用统一的方法分析;我也尝试过,抓取的准确性还不错。
@donnior 不知道您指的算法有没有可参考的?