在考虑 ruby 弄个比较完整的定向爬虫工具,希望能够做到能够定时、多线程、可配置。 希望大家能给点意见,怎么做比较合适。谢谢。
c ruby 的多线程,貌似在多核下不能并行吧?以前倒是听说 jruby 在 jvm 下可以。还不如做多进程,效果一样,效率有保障。以上是我的猜测,嘿嘿。
https://github.com/typhoeus/typhoeus 这个直接就支持并行抓了
是封装了 libcurl / libcurl-multi 的,跟 ruby vm 自己的线程没关系
https://github.com/chriskite/anemone/tree/master 作者貌似三个月前有更新
它的代码量很少的,核心代码在三四个文件里面,你自己写调度的话可以参考一下它的