hi all
我在用 nokogiri 抓取网页时,总会出现 503 Service Temporarily Unavailable
nokogiri(open(link))
或许说 link 转码有问题,我就 nokogiri(open(URI.escape(link))
还是不行
实验 n 次能成功一次
抓取太频繁被服务器给拦住了?sleep 一段时间然后再进行下一次抓取看看,或者用anemone这个 gem 模拟响应头部
anemone
好像 IIS 的服务器有这个 BUG。。。
我也觉得你有可能地址处理错误了。 你试试单个抓取看看。
然后分析一下抓取成功的页面和不成功的页面的区别在哪里