瞎扯淡 真的有无法使用自动化工具爬取数据的网站吗?

Terry.Shi · 2020年06月02日 · 最后由 huobazi 回复于 2020年06月11日 · 3085 次阅读

公司会时不时爬一些竞品网站的产品信息,依赖于爬虫框架,改改频率改改 UA 加个 ip 代理池几乎都顺利能爬到。直到接到爬 www.lulus.com 这家的需求,换过爬虫框架甚至用了 ui 测试框架,调研过一些模拟浏览器访问的服务,都无法正常爬取页面,不是 403 就是人机检测页面,最终用了最蠢的方法:按键精灵,真就开了个 windows 用按键精灵直接去开浏览器然后截屏。。这里可以给个列表页,大家感兴趣的可以爬爬看https://www.lulus.com/categories/262_475/white-dresses.html 。我主要是想请教一下这是什么样的技术组合能够实现这么强的反爬,莫非已经用上了传说中的人工智能来分析请求?

去试试美团点评, 说不定有新的感受

w7938940 回复

很有用,学到了

https://www.lulus.com/px/client/main.min.js中发现以下信息

PerimeterX 提供一款基于行为的反爬工具 Bot Defender,自称 “凭借强大的机器学习和攻击响应能力领先业界”, 在原有架构(CDN、负载均衡器、web 服务器)中集成 Bot Defender,收集用户浏览数据, 生成设备和浏览器指纹,基于机器学习的检测机制区分真人与爬虫。

一说到这个我就气,我也碰到了一个,光看 Js 的话,它会检索我的浏览器变量,带了 webdriver 就不让访问。上网查了 2 天,好不容易把变量去掉后,还是不行。有大佬帮看下不: https://www.hainanairlines.com/US/US/Home

说个思路吧,

我以前搞过一个, 超级难爬, 实在没法, 换 javascript 写 chrome 插件, run 在 chrome 里.

打开浏览器,登陆目标网站, call 出插件,显示个 button ,点击,该爬的都爬到了,组织好数据, post 到自己的 api 上.

done.

多买几个运营妹子点按钮 😄

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册