新手问题 无法抓取土豆页面视频

cqcn1991 · 2014年09月24日 · 最后由 cqcn1991 回复于 2014年10月02日 · 2647 次阅读

比如 http://www.tudou.com/home/_48712163/item 抓取这个页面的视频

每个视频的小 div 的代码是

<div class="pack pack_album2" data-stat-role="ck" data-stat-href="http://www.tudou.com/programs/view/e3jLsLPGct0/">
</div>

也就是抓取.pack就行

使用 nokogiri,代码如下

url = 'http://www.tudou.com/home/_48712163/item'
doc = Nokogiri::HTML(open(url) )
puts doc.css("title").text
doc.css(".pack").each do |item|
  #抓取土豆新视频
  title = item.css(".txt a")[0]['title']
  href = item.at(".txt a")[0]['href']
  puts title
  puts href
end

会提示.pack 抓到的是 nil class,也就是抓不到

实际上,我还抓了视频 div 的前几级的 div.page-container,显示里面根本就没有这些视频信息

不知道怎么办?

因为本来就没有。。。现在都不是静态页面了……

要么自己追踪一下 ajax……要么直接用自动化的浏览器……

当然如果可能……最好用官方 API……

#1 楼 @Kabie 好像是 ajax。不过使用 watir 完全没接触过 不知道有啥用 watir 的例子可以参考?

#4 楼 @ywencn ……一句惊醒梦中人……

#3 楼 @saiga 请教这个是哪里找的?我现在还想要个单个视频的查询……

需要 登录 后方可回复, 如果你还没有账号请 注册新账号