用 mechanize, nokogiri, wget, curl 等获取的页面内容 跟用人工手动打开页面 在内容上有区别
请问这是怎么做到的
我用 mechanize 设置了 agent.user_agent_alias = 'Mac Firefox' 也没什么用
请问怎么解决类似的问题,如果要保持内容一致
你不把区别 show 出来,别人也不太好帮你判断原因的。
也有一种可能性是目标页面使用了 Ajax 动态填充内容,这个就不是那么好抓了。
@huacnlee @h_minghe @jerrychen2008 @nightire http://www.aliexpress.com/wholesale?SearchText=princess+sofia+dress 有空试试,人工打开的内容跟用程序获取的不太一样
我尝试
curl -L http://www.aliexpress.com/wholesale?SearchText=princess+sofia+dress > log.html.
然后
open log.html
发现和直接在浏览器中直接打开的页面对比了一下,似乎商品列表的方式不一样。
@luffycn 好吧,我暂且就假设你在爬商品。然后打开浏览去查看商品内容的时候发现该页面的商品内容和自己爬到的不一样的。
我稍后试试看。
@Rei sorry, 没注意到。。比如我用 wget 获取的页面,最后一个商品是价格 US $11.88,而用浏览器看到的最后一个商品则价格是 US $8.64 - 10.02