Access denied, Please sign in and make sure you have proper permission.

Ruby Ruby 爬虫框架

hooopo · November 06, 2017 · Last by zaqmjuop replied at December 20, 2017 · 9472 hits

翻到这个帖子： https://ruby-china.org/topics/22711

最近看了一下 Python 的 scrapy，感觉没有什么特别的地方，用 Ruby 实现的话技术上也没什么不可行的，甚至更好用（Python 那语法，不说了）。不知道大家有没有 Ruby 爬虫框架的需求。想撸一个。

21 likes

ruby 有没有象 python 的 scrapy 那样的爬虫框架

No reference

Peter #0 November 06, 2017

有，开撸吧，给你 Star，

机器学习输给 python 也就罢了，爬虫无论如何不能输给 python 啊~

1 likes

pathbox #1 November 06, 2017

scrapy 配置几项就按照配置爬了，Ruby 也可以做到

hooopo #2 November 06, 2017

Reply to

Peter

是啊不能输在起跑线上

jasl #3 November 06, 2017

可以啊，直接就能用在黄网上😁

14 likes

42thcoder #4 November 06, 2017

必须有啊，一直觉得 scrapy 挺弱的，也没做啥，但是知名度就是高，好多小白都慕名来学 Python

hooopo #5 November 06, 2017

Reply to

42thcoder

『好多小白都慕名来学 Python』好气哦

2 likes

G.O.A.Tzz #6 November 06, 2017

我只能献上我的 star 了

daqing #7 November 06, 2017

有人用 golang 写了一个：gopa

hooopo #8 November 06, 2017

Reply to

daqing

看起来不错，不过文档太简陋了，爬虫框架默认集成 ES，有点莫名其妙啊

nouse #9 November 06, 2017

Reply to

hooopo

ES 不是做全文检索吗？

hooopo #10 November 06, 2017

Reply to

nouse

看懂了，他提供了一个默认的 search console，果然是 ES 官方的写爬虫也不忘加私货

tony612 #11 November 06, 2017

案例一波 @fredwu 的 https://github.com/fredwu/crawler （不过我没用过😅）

darkbaby123 #12 November 06, 2017

@tony612 我也想到这个了。Elixir 的并发模型应该是很适合爬虫的场景。

fredwu #13 November 06, 2017

我丢顶帽子来收比特币赞助...

sharpx #14 November 06, 2017

我在 2 个项目中用到了 scrapy，说真的，感觉自己用 ruby 写可能更灵活一点，scrapy 其实就并发和调度这块做的不错，但是用 ruby+sidekiq+redis 也可以实现

sharpx #15 November 06, 2017

Reply to

Peter

我觉得 python 比较偏数据分析，至于机器学习，需要建立在大规模的数据集合之上，个人觉得 scala+spark 更合适

hooopo #16 November 06, 2017

Reply to

tony612

@fredwu great，这个完成度不错啊，学习一下

hooopo #17 November 06, 2017

Reply to

sharpx

是啊讲道理，ruby 做爬虫是强项，居然没有一个成熟的框架

lithium4010 #18 November 06, 2017

需要一个 rb-readability

Rei #19 November 06, 2017

第一次写出来的实用程序就是爬虫，后来一直对爬虫没兴趣，因为不想做一个基于爬别人的数据的应用。

Python 能做的 Ruby 也能做，Python 也有 GIL ，Python 跟 Ruby 一样慢。

要说 Ruby 缺什么，就是缺对某个领域感兴趣又能把项目完成度做得很高的人。

2 likes

rocLv #20 November 07, 2017

别整这些没用的，写个 ruby 版的 spring cloud 之类的吧

1 likes

21 Floor has deleted

cxh116 #22 November 07, 2017

Reply to

42thcoder

scrapy 挺弱的这个还真不赞同，就爬虫框架来说，代码层次的灵活性真不是其它框架能比的。

https://docs.scrapy.org/en/latest/topics/architecture.html
架构清晰，middleware 可以很好的处理用来做些定向网站抓取的异常处理，或 cookies 切换，或代理 IP 切换。
item pipelines 能够很方便的能数据进行清洗和保存。
而 downloader 对那些保存下载资源的项目来说，也可以很好的把资源下载下来再保存到本地或 s3.

scrapinghub 提供了 Splash 这个库，浏览器集成非常高，支持用 lua 或 js 来定制，对某些情景来说，直接使用它能很简单的处理一些反爬虫。
不过 splash 本身有内存泄漏问题，官方的推荐做是是起两个 docker ,前面再用一个 haproxy 做负载均衡，当一个超内存时，直接重启此 docker .

本身基于 Twisted 异步网络库实现，所以 GIL 的问题影响并没有那么大。

弱点来说，就是基于 Twisted , 数据库驱动和 ORM 对它支持的并不是很好。
相对简单粗爆的处理办理参考 Twisted 官方文档，数据保存另外起线程。否则会阻塞整个 Twisted reactor，在一个页面有很多 items, piplines 的保存反而成为瓶颈。
或使用 redis twisted 库，先保存到 redis，再另外起进程来清洗数据。
就这个弱点来说，如果在 ruby 中使用 EventMachine ,也会存在此问题。

如果纯粹参考 scrapy 来实现的话，感觉还是很难超越它。就 ruby 的 EventMachine 库来说，HTTP Client 还是第三方实现。而 Twisted 官方已经在准备 http2 的实现了。

9 likes