有人之前遇到过这个问题么?怎么办啊
试下加上 user-agent,伪装成 IE 之类的试试
不断更换 UserAgent,降低频率,不断换 IP
@kgen 其实我写了 useragent ,也不行。。。它屏蔽我是什么原理啊?我怎么才能装成是一个浏览器呢。。。
#3 楼 @superbatironmans5 无非就是 useragent , 行为特征(比如人两次点击间的时间比较长),单个 IP 访问的数据量,这 3 者进行判断
#3 楼 @superbatironmans5 你肯定是连续访问量太大被人家屏蔽了,你可以在 http 请求的循环代码中加一些 sleep(5) 之类的,浏览器的话就是根据 useragent 判断的,header 里面添加就行了 话说我有一次一天从 taobao 上面抓了好几十 G 的东西...
#5 楼 @sailtsao 淘宝上面抓的东西,有什么用啊? 好奇 下而已。
@sailtsao 要是加了 sleep(5)岂不是抓东西的速度会很慢。。。您有没有可以让我参考下的现成代码呢。。。抓淘宝的那个。。。superbatironmans5 # gmail.com
不使用代理,貌似不能很好解决此问题吧,况且人家的反爬虫也不是吃素的,