如题,现在想抓去人人网上面的内容,现在有个问题是有的内容是 javascript 的内容,如何用 ruby 可以抓取,另外还有一个就是 ruby 怎么可以进行验证码登陆~~谢谢了急求啊!!~
抓取我是采用自己写个脚本,用的 open-uri 去获取内容然后分析其规律,然后自己写正则。。。不过貌似有简单的吧~~~
关于解析 js 可以试试 PhantomJS,把内容喂给 PhantomJS,然后它吐出来运行过的页面,不过速度异常慢 还有些用于网页测试的工具也可以尝试
http://stackoverflow.com/questions/814757/headless-internet-browser
#2 楼 @bigfang ruby 可以直接抓取 javascript 的内容么?~~~
如果你想抓取执行完 js 的 Html 页面,那么用 2 楼@bigfang 的方案,用 headless browser。 如果你只是想抓取 js 执行的结果,可以考虑用 V8 引擎解释 js,如therubyracer。 github:https://github.com/cowboyd/therubyracer
https://github.com/cowboyd/therubyracer
直接请求