新手问题 当 Nokogiri/Mechanize 遇到 bot detection 时完全失效了

luffycn · 2014年12月12日 · 最后由 luffycn 回复于 2014年12月12日 · 1556 次阅读

已经有一些公司推出了 bot detection 服务了 并且 nokogiri/mechanize 即使设置了 user_agent 也没有办法绕开 bot detection

有什么办法嘛? 哪位有经验的?

如果什么时候,主流的网站都使用了这种 bot detection 服务时 那 nokogiri/mechanize 就基本没什么用武之地了?

知己知彼百战不殆,首先你得弄清楚 bot detection 是怎么一回事,然后才能 detect bot detection

这么牛逼?

浏览器跟你写的脚本都是程序,如果是硬检测的话先用浏览器看一下请求头 如果是基于用户行为检测的话无解(比如 google 新出的 reCAPTCHA)。这东西要是普及了采集站都得死

原理是,改变 DNS,比如换成 111.111.111.111 后,对所有经过该 DNS 解析请求的进行分析,但具体是怎么分析的,不清楚了。这是关键

单纯解析 html 的方式是很容易被视为 bot,现在流行用 headless browser

@quakewang Capybara 跟 Selenium 属于你提到的 headless browswer 嘛?

需要 登录 后方可回复, 如果你还没有账号请 注册新账号