公司会时不时爬一些竞品网站的产品信息,依赖于爬虫框架,改改频率改改 UA 加个 ip 代理池几乎都顺利能爬到。直到接到爬 www.lulus.com 这家的需求,换过爬虫框架甚至用了 ui 测试框架,调研过一些模拟浏览器访问的服务,都无法正常爬取页面,不是 403 就是人机检测页面,最终用了最蠢的方法:按键精灵,真就开了个 windows 用按键精灵直接去开浏览器然后截屏。。这里可以给个列表页,大家感兴趣的可以爬爬看https://www.lulus.com/categories/262_475/white-dresses.html 。我主要是想请教一下这是什么样的技术组合能够实现这么强的反爬,莫非已经用上了传说中的人工智能来分析请求?