Ruby 求助 如何用 ruby 抓取网页中 javascript 的内容

yhtking001 · 2012年11月03日 · 最后由 reus 回复于 2012年11月03日 · 5283 次阅读

如题,现在想抓去人人网上面的内容,现在有个问题是有的内容是 javascript 的内容,如何用 ruby 可以抓取,另外还有一个就是 ruby 怎么可以进行验证码登陆~~谢谢了急求啊!!~

抓取我是采用自己写个脚本,用的 open-uri 去获取内容然后分析其规律,然后自己写正则。。。不过貌似有简单的吧~~~

关于解析 js 可以试试 PhantomJS,把内容喂给 PhantomJS,然后它吐出来运行过的页面,不过速度异常慢 还有些用于网页测试的工具也可以尝试

http://stackoverflow.com/questions/814757/headless-internet-browser

#2 楼 @bigfang ruby 可以直接抓取 javascript 的内容么?~~~

如果你想抓取执行完 js 的 Html 页面,那么用 2 楼@bigfang 的方案,用 headless browser。 如果你只是想抓取 js 执行的结果,可以考虑用 V8 引擎解释 js,如therubyracer。 github:https://github.com/cowboyd/therubyracer

直接请求

需要 登录 后方可回复, 如果你还没有账号请 注册新账号