新手问题 当 Nokogiri/Mechanize 遇到 bot detection 时完全失效了

luffycn · December 12, 2014 · Last by luffycn replied at December 12, 2014 · 1548 hits

已经有一些公司推出了 bot detection 服务了 并且 nokogiri/mechanize 即使设置了 user_agent 也没有办法绕开 bot detection

有什么办法嘛? 哪位有经验的?

如果什么时候,主流的网站都使用了这种 bot detection 服务时 那 nokogiri/mechanize 就基本没什么用武之地了?

知己知彼百战不殆,首先你得弄清楚 bot detection 是怎么一回事,然后才能 detect bot detection

这么牛逼?

浏览器跟你写的脚本都是程序,如果是硬检测的话先用浏览器看一下请求头 如果是基于用户行为检测的话无解(比如 google 新出的 reCAPTCHA)。这东西要是普及了采集站都得死

原理是,改变 DNS,比如换成 111.111.111.111 后,对所有经过该 DNS 解析请求的进行分析,但具体是怎么分析的,不清楚了。这是关键

单纯解析 html 的方式是很容易被视为 bot,现在流行用 headless browser

@quakewang Capybara 跟 Selenium 属于你提到的 headless browswer 嘛?

You need to Sign in before reply, if you don't have an account, please Sign up first.