如何能在网站上显示图片,但是不让爬虫抓取?
还有什么招数,求解
区分不了真实浏览器啊,有什么浏览器能做的,爬虫做不了得吗
必须得注册才能查看,除了这个办法,想不到其它的防爬虫的办法. 你只要非注册能查看,我 1 分钟爬一次,你总不能把我的封了吧。
但如果你注册了,我可以记录你这个用户查看了多少次,超过多少次,直接封帐号。
一般的爬虫不会去解析 JS,如果你用 lazy loading,起码可以防止 90% 的爬虫了 当然,如果对于那些专门针对你的网站的爬虫,你能做的很少。
用 secure_link : http://nginx.org/en/docs/http/ngx_http_secure_link_module.html
只能你能展示给用户,那它就有办法拿到,所以压根没有办法防,即使有,代价也太高了。
为什么非得防止抓取图片呢,实在不行加水印算了,不过也很牺牲体验。
反爬总的来说算是伤敌一千自损八百的行为。除了用户体验,还有 seo 方面得考虑进去. 个人有以下几个考虑:
大概写过一年多的爬虫,它和浏览器你可以当做是一样的,headless 浏览器,思考方向上,你只能想它和正常用户的行为上的区别,访问频率,验证码。
另外假设是列出公司信息,company/id, 这里的 Id 一定不能是连续的,应该间隔数字很大,这样它就不方便枚举。而且列表页,给个几十页就可以了,别真的全列出来了。不要提供很方便的枚举入口。
许多页面,可以是必须登录后才能访问,而登录前要验证码,如果木有验证码,爬虫是可以自动进行登录的,而即便有验证码,也是可以手动登录后,把 cookie 保存到文件里,爬虫读取的。
当然如果它把抓取频率控制下来,再用各种 ip 来 rotate,这些 ip 可以是网络上买的私人代理,以及各种公开代理网站上抓取下来的公开代理,那就完全没办法了,因为相当于就是正常用户行为了。
封锁爬虫,是个长期活啊,如果对方有毅力的话
现在不写爬虫了,不稳定,也容易招大神黑/鄙视,O(∩_∩)O~
以现在爬虫的水平来说,你很难防范。我朋友的爬虫抓亚马逊的图片,系统由二十多台树莓派构成,购买了多个不同的线路,抓取任务会控制访问时段,请求次数。通过不停的尝试来获得网站容忍的爬虫请求次数。