瞎扯淡真的有无法使用自动化工具爬取数据的网站吗？

Terry.Shi · 2020年06月02日 · 最后由 huobazi 回复于 2020年06月11日 · 4041 次阅读

公司会时不时爬一些竞品网站的产品信息，依赖于爬虫框架，改改频率改改 UA 加个 ip 代理池几乎都顺利能爬到。直到接到爬 www.lulus.com 这家的需求，换过爬虫框架甚至用了 ui 测试框架，调研过一些模拟浏览器访问的服务，都无法正常爬取页面，不是 403 就是人机检测页面，最终用了最蠢的方法：按键精灵，真就开了个 windows 用按键精灵直接去开浏览器然后截屏。。这里可以给个列表页，大家感兴趣的可以爬爬看https://www.lulus.com/categories/262_475/white-dresses.html 。我主要是想请教一下这是什么样的技术组合能够实现这么强的反爬，莫非已经用上了传说中的人工智能来分析请求？

2 个赞

teddyinfi #0 2020年06月03日

去试试美团点评，说不定有新的感受

w7938940 #1 2020年06月05日

反击爬虫，前端工程师的脑洞可以有多大？

Terry.Shi #2 2020年06月08日

对

w7938940 回复

很有用，学到了

Terry.Shi #3 2020年06月08日

在https://www.lulus.com/px/client/main.min.js中发现以下信息

PerimeterX 提供一款基于行为的反爬工具 Bot Defender，自称“凭借强大的机器学习和攻击响应能力领先业界”，在原有架构（CDN、负载均衡器、web 服务器）中集成 Bot Defender，收集用户浏览数据，生成设备和浏览器指纹，基于机器学习的检测机制区分真人与爬虫。

youngT #4 2020年06月11日

一说到这个我就气，我也碰到了一个，光看 Js 的话，它会检索我的浏览器变量，带了 webdriver 就不让访问。上网查了 2 天，好不容易把变量去掉后，还是不行。有大佬帮看下不： https://www.hainanairlines.com/US/US/Home

huobazi #5 2020年06月11日

说个思路吧，

我以前搞过一个，超级难爬，实在没法，换 javascript 写 chrome 插件，run 在 chrome 里。

打开浏览器，登陆目标网站，call 出插件，显示个 button ,点击，该爬的都爬到了，组织好数据，post 到自己的 api 上。

done.

多买几个运营妹子点按钮 😄

4 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号