只需要写 item 页面的抓取规则和结果保存方式就行了
http://lmgtfy.com/?q=ruby+scrapy
#1 楼 @Rei 有意思
checkout for yourself https://www.ruby-toolbox.com/categories/Web_Content_Scrapers
吐血了,我正想问。琢磨好久了,试了下 spidr 和 anemone,还是不能满足需求啊。
我的需求也就是: #. 多线程或者 event io 的,不能是单线程,spidr 直接就不行了。单线程慢得要死掉了 #. 能够记录状态,当我再次启动爬虫时,能够根据上次记录的状态继续爬,而不是又从头开始,再来一遍。比如记录网页的 Last-Modified 头信息。 #. 能够提供方便的网页处理功能,这个应该都有的,就是我能很方便的获取其中的元素进行进一步的处理。
@yakczh @xdz0611 我给你们写个吧
#5 楼 @luffycn 要不要这么吊 可以的,举双手欢迎啊 只不过我觉得我的需求只是最最基本的而已啊,难道那么多开源模块都写着自己玩的?我刚刚提到的两个模块是我搜索到的最流行的两个爬虫 gem 了。。。
python 的 scrapy 我也准备试试了,只是太大,文档太多,看得头大,这么基本的一个需求而已嘛。。。
如果需求不多,可以开迅雷下一个 Google Search Appliance,输入入网址就可以索引,不用配置 http://bbs.neten.de/viewthread.php?tid=1189
#1 楼 @rei