目前来有这几个需求
看到社区里有位同志推荐了黄先生的作品,看了一下,在内容抽取方面应该没有大问题 https://github.com/code4craft/webmagic
分布式和代理这块,ruby 有没有比较稳定的 gem,要想实现一个稳定长期的数据采集服务。
#1 楼 @tiseheaini 用框架的目的,是把除特殊采集规则抽取逻辑之外的调度、存储、代理做成模块,方便使用,可以在一套框架里实现多个需求的内容抓取。
Anemone web-spider framework https://github.com/chriskite/anemone
#9 楼 @vus520 Anemone 好像是整站爬。 如果定向爬网站,建议参考https://github.com/hooopo/direct_web_spider自己做一个。我们基于这个框架做了一阵,马马虎虎对付过去了。 不过上述框架都很久没有维护了,还是自己搞一个吧。mechanize+nokogirl 可以搞定一切。