已经有一些公司推出了 bot detection 服务了 并且 nokogiri/mechanize 即使设置了 user_agent 也没有办法绕开 bot detection
有什么办法嘛? 哪位有经验的?
如果什么时候,主流的网站都使用了这种 bot detection 服务时 那 nokogiri/mechanize 就基本没什么用武之地了?
知己知彼百战不殆,首先你得弄清楚 bot detection 是怎么一回事,然后才能 detect bot detection
这么牛逼?
浏览器跟你写的脚本都是程序,如果是硬检测的话先用浏览器看一下请求头 如果是基于用户行为检测的话无解(比如 google 新出的 reCAPTCHA)。这东西要是普及了采集站都得死
原理是,改变 DNS,比如换成 111.111.111.111 后,对所有经过该 DNS 解析请求的进行分析,但具体是怎么分析的,不清楚了。这是关键
单纯解析 html 的方式是很容易被视为 bot,现在流行用 headless browser
@quakewang Capybara 跟 Selenium 属于你提到的 headless browswer 嘛?