Ruby ruby 有没有象 python 的 scrapy 那样的爬虫框架

yakczh · 2014年11月17日 · 最后由 assyer 回复于 2016年01月17日 · 6482 次阅读

只需要写 item 页面的抓取规则和结果保存方式就行了

吐血了,我正想问。琢磨好久了,试了下 spidr 和 anemone,还是不能满足需求啊。

我的需求也就是: #. 多线程或者 event io 的,不能是单线程,spidr 直接就不行了。单线程慢得要死掉了 #. 能够记录状态,当我再次启动爬虫时,能够根据上次记录的状态继续爬,而不是又从头开始,再来一遍。比如记录网页的 Last-Modified 头信息。 #. 能够提供方便的网页处理功能,这个应该都有的,就是我能很方便的获取其中的元素进行进一步的处理。

@yakczh @xdz0611 我给你们写个吧

#5 楼 @luffycn 要不要这么吊 😄 可以的,举双手欢迎啊 只不过我觉得我的需求只是最最基本的而已啊,难道那么多开源模块都写着自己玩的?我刚刚提到的两个模块是我搜索到的最流行的两个爬虫 gem 了。。。

python 的 scrapy 我也准备试试了,只是太大,文档太多,看得头大,这么基本的一个需求而已嘛。。。

如果需求不多,可以开迅雷下一个 Google Search Appliance,输入入网址就可以索引,不用配置 http://bbs.neten.de/viewthread.php?tid=1189

hooopo Ruby 爬虫框架 提及了此话题。 11月06日 18:46
需要 登录 后方可回复, 如果你还没有账号请 注册新账号