比如 http://www.tudou.com/home/_48712163/item 抓取这个页面的视频
每个视频的小 div 的代码是
<div class="pack pack_album2" data-stat-role="ck" data-stat-href="http://www.tudou.com/programs/view/e3jLsLPGct0/">
</div>
也就是抓取.pack
就行
使用 nokogiri,代码如下
url = 'http://www.tudou.com/home/_48712163/item'
doc = Nokogiri::HTML(open(url) )
puts doc.css("title").text
doc.css(".pack").each do |item|
#抓取土豆新视频
title = item.css(".txt a")[0]['title']
href = item.at(".txt a")[0]['href']
puts title
puts href
end
会提示.pack 抓到的是 nil class,也就是抓不到
实际上,我还抓了视频 div 的前几级的 div.page-container
,显示里面根本就没有这些视频信息
不知道怎么办?