Ruby mechanize 做爬虫 gethtml 的时候，有节点载入不完全的情况

wudixiaotie · 2014年07月27日 · 最后由 wudixiaotie 回复于 2014年07月29日 · 2887 次阅读

一个页面在网上 get 的时候搜索某个节点会搜索不到，但是把页面下载后再 get 本地的同一个网页就会获取到这个节点，不知道有没有遇到过类似的情况。

agent = Mechanize.new
keyword = "手机"
page_num = 1
list_page_p1 = agent.get("http://search.jd.com/Search?keyword=#{keyword}&enc=utf-8&page=#{page_num}")
item[:price] = div.search("div[@class='p-price']").text.match(/\t.*\t/)  
#这时会搜索不到item[:price]这个节点，但是把这个网页保存到本地就能搜索到

哪个大神帮我解决一下，get 图片的时候保存也会遇到这个问题，但是那个好解决只要判断保存的图片大小为 0 就重新 get 就是了，但是这个怎么办呢？？？还是我写的有问题？？？？

2 个赞

saiga #0 2014年07月27日

页面源码没有，应该是做了延迟加载

saiga #1 2014年07月27日

抽出 p-price 下面 strong 标签的 class，比如 J_1130480 然后组合成数组用 http://p.3.cn/prices/mgets?skuids =xx,xx,xx 请求拿到 json，就 ok 了。记得多用开发者工具...

1 个赞

mimosa #2 2014年07月28日

1 个赞

wudixiaotie #3 2014年07月29日

#2 楼 @saiga 谢谢您的解答，我对爬虫的理解还是太浅薄了，以为就是 get 下来就 OK 了，原来跟打仗一样，你来我往的，真的很有意思。原来一直没往这边想，以为是我用错了，^_^，那我就懂了。就是用浏览器的工具分析网站然后下手。o(∩∩)o...哈哈

需要登录后方可回复, 如果你还没有账号请注册新账号