新手问题 郁闷啊,用 nokogiri 在一个网站抓东西被 403 了怎么办???

superbatironmans5 · 2013年01月19日 · 最后由 small_fish__ 回复于 2013年01月23日 · 2805 次阅读

有人之前遇到过这个问题么?怎么办啊

试下加上 user-agent,伪装成 IE 之类的试试

不断更换 UserAgent,降低频率,不断换 IP

@kgen 其实我写了 useragent ,也不行。。。它屏蔽我是什么原理啊?我怎么才能装成是一个浏览器呢。。。

#3 楼 @superbatironmans5 无非就是 useragent , 行为特征(比如人两次点击间的时间比较长),单个 IP 访问的数据量,这 3 者进行判断

#3 楼 @superbatironmans5 你肯定是连续访问量太大被人家屏蔽了,你可以在 http 请求的循环代码中加一些 sleep(5) 之类的,浏览器的话就是根据 useragent 判断的,header 里面添加就行了 话说我有一次一天从 taobao 上面抓了好几十 G 的东西...

#5 楼 @sailtsao 淘宝上面抓的东西,有什么用啊? 好奇 下而已。

@sailtsao 要是加了 sleep(5)岂不是抓东西的速度会很慢。。。您有没有可以让我参考下的现成代码呢。。。抓淘宝的那个。。。superbatironmans5 # gmail.com

不使用代理,貌似不能很好解决此问题吧,况且人家的反爬虫也不是吃素的,

需要 登录 后方可回复, 如果你还没有账号请 注册新账号