新手问题郁闷啊，用 nokogiri 在一个网站抓东西被 403 了怎么办？？？

superbatironmans5 · 2013年01月19日 · 最后由 small_fish__ 回复于 2013年01月23日 · 2866 次阅读

有人之前遇到过这个问题么？怎么办啊

ywencn #0 2013年01月19日

试下加上 user-agent，伪装成 IE 之类的试试

kgen #1 2013年01月20日

不断更换 UserAgent，降低频率，不断换 IP

superbatironmans5 #2 2013年01月20日

@kgen 其实我写了 useragent ,也不行。。。它屏蔽我是什么原理啊？我怎么才能装成是一个浏览器呢。。。

kgen #3 2013年01月20日

#3 楼 @superbatironmans5 无非就是 useragent , 行为特征（比如人两次点击间的时间比较长），单个 IP 访问的数据量，这 3 者进行判断

sailtsao #4 2013年01月21日

#3 楼 @superbatironmans5 你肯定是连续访问量太大被人家屏蔽了，你可以在 http 请求的循环代码中加一些 sleep(5) 之类的，浏览器的话就是根据 useragent 判断的，header 里面添加就行了话说我有一次一天从 taobao 上面抓了好几十 G 的东西...

heliang7 #5 2013年01月21日

#5 楼 @sailtsao 淘宝上面抓的东西，有什么用啊？好奇下而已。

superbatironmans5 #6 2013年01月21日

@sailtsao 要是加了 sleep（5）岂不是抓东西的速度会很慢。。。您有没有可以让我参考下的现成代码呢。。。抓淘宝的那个。。。superbatironmans5 # gmail.com

small_fish__ #7 2013年01月23日

不使用代理，貌似不能很好解决此问题吧，况且人家的反爬虫也不是吃素的，

需要登录后方可回复, 如果你还没有账号请注册新账号

共收到 8 条回复

新手问题 郁闷啊，用 nokogiri 在一个网站抓东西被 403 了怎么办？？？