Ruby ruby 有没有象 python 的 scrapy 那样的爬虫框架

yakczh · 2014年11月17日 · 最后由 assyer 回复于 2016年01月17日 · 6516 次阅读

只需要写 item 页面的抓取规则和结果保存方式就行了

无引用文章

Ruby 爬虫框架

Rei #0 2014年11月17日

http://lmgtfy.com/?q=ruby+scrapy

2 个赞

tsinghan #1 2014年11月17日

#1 楼 @Rei 有意思

1 个赞

lazing #2 2014年11月18日

checkout for yourself https://www.ruby-toolbox.com/categories/Web_Content_Scrapers

xdz0611 #3 2014年11月19日

吐血了，我正想问。琢磨好久了，试了下 spidr 和 anemone，还是不能满足需求啊。

我的需求也就是： #. 多线程或者 event io 的，不能是单线程，spidr 直接就不行了。单线程慢得要死掉了 #. 能够记录状态，当我再次启动爬虫时，能够根据上次记录的状态继续爬，而不是又从头开始，再来一遍。比如记录网页的 Last-Modified 头信息。 #. 能够提供方便的网页处理功能，这个应该都有的，就是我能很方便的获取其中的元素进行进一步的处理。

luffycn #4 2014年11月19日

@yakczh @xdz0611 我给你们写个吧

xdz0611 #5 2014年11月19日

#5 楼 @luffycn 要不要这么吊可以的，举双手欢迎啊只不过我觉得我的需求只是最最基本的而已啊，难道那么多开源模块都写着自己玩的？我刚刚提到的两个模块是我搜索到的最流行的两个爬虫 gem 了。。。

python 的 scrapy 我也准备试试了，只是太大，文档太多，看得头大，这么基本的一个需求而已嘛。。。

Peter #6 2014年11月19日

如果需求不多，可以开迅雷下一个 Google Search Appliance，输入入网址就可以索引，不用配置 http://bbs.neten.de/viewthread.php?tid=1189

assyer #7 2016年01月17日

#1 楼 @rei

hooopo 在 Ruby 爬虫框架提及了此话题。 11月06日 18:46

需要登录后方可回复, 如果你还没有账号请注册新账号