Gem Nokogiri 如何抓取原网页通过 js 或者 ajax 加载至网页的内容

xiaogui · 2013年09月12日 · 最后由 lakuy 回复于 2015年06月22日 · 8196 次阅读

在试着用 Nokogiri 抓取一网页，代码类似下面。然后在调试中，发现 Nokogiri 抓取的页面内容与浏览器中显示的不一致。就是原网页通过 js 或者 ajax 加载至网页的一些内容 Nokogiri 抓不到，不知道大家是否碰到过这样的问题，以及如何解决掉的？

agent = Mechanize.new
agent.user_agent_alias = 'Mac Safari'

detail_page_url = 'http://www.example.com'
doc = Nokogiri::HTML.parse(agent.get(detail_page_url).body, nil, 'utf-8')

1 个赞

yesmeck #0 2013年09月12日

如果需要的內容是異步加載的，就直接抓它 ajax 請求的地址。

nightire #1 2013年09月12日

你搞错了一件事情，Nokogiri 是 HTML/XML 解析器，不是网页抓取器。在你的代码中，Mechanize 是真正负责抓取目标网页的东东。

如果你要获取通过 AJAX 加载的内容，那你就要分析目标地址的 AJAX 请求的 endpoint 是哪里，然后模拟这一请求去拿到内容，这期间可能还要考虑 session/cookie 的状态，因为 AJAX 请求有可能是依赖保存在其中的某些数据的。Mechanize 可以做到这一点，因为它设计的时候就考虑到了管理 session/cookie 的状态，所以你应该去看看 Mechanize 的文档寻求答案。

一旦你完成了请求模拟，Nokogiri 就可以做剩下的事儿了——解析你拿到的 HTML。

1 个赞

xiaogui #2 2013年09月13日

#2 楼 @nightire 这么说下，清楚多了，感谢。