Ruby Ruby 爬虫框架

hooopo · 2017年11月06日 · 最后由 zaqmjuop 回复于 2017年12月20日 · 9436 次阅读

翻到 这个帖子: https://ruby-china.org/topics/22711

最近看了一下 Python 的 scrapy,感觉没有什么特别的地方,用 Ruby 实现的话技术上也没什么不可行的,甚至更好用(Python 那语法,不说了)。不知道大家有没有 Ruby 爬虫框架的需求。想撸一个。

有,开撸吧,给你 Star,

机器学习 输给 python 也就罢了,爬虫无论如何不能输给 python 啊~

scrapy 配置几项就按照配置爬了,Ruby 也可以做到

Peter 回复

是啊 不能输在起跑线上 😅

必须有啊,一直觉得 scrapy 挺弱的,也没做啥,但是知名度就是高,好多小白都慕名来学 Python

42thcoder 回复

『好多小白都慕名来学 Python』 好气哦

我只能献上我的 star 了

有人用 golang 写了一个:gopa

daqing 回复

看起来不错,不过文档太简陋了,爬虫框架默认集成 ES,有点莫名其妙啊

hooopo 回复

ES 不是做全文检索吗?

nouse 回复

看懂了,他提供了一个默认的 search console,果然是 ES 官方的写爬虫也不忘加私货 😅

案例一波 @fredwuhttps://github.com/fredwu/crawler (不过我没用过😅)

@tony612 我也想到这个了。Elixir 的并发模型应该是很适合爬虫的场景。

😎 我丢顶帽子来收比特币赞助... 😏

我在 2 个项目中用到了 scrapy,说真的,感觉自己用 ruby 写可能更灵活一点,scrapy 其实就并发和调度这块做的不错,但是用 ruby+sidekiq+redis 也可以实现

Peter 回复

我觉得 python 比较偏数据分析,至于机器学习,需要建立在大规模的数据集合之上,个人觉得 scala+spark 更合适

tony612 回复

@fredwu great,这个完成度不错啊,学习一下

sharpx 回复

是啊 讲道理,ruby 做爬虫是强项,居然没有一个成熟的框架

需要一个 rb-readability

第一次写出来的实用程序就是爬虫,后来一直对爬虫没兴趣,因为不想做一个基于爬别人的数据的应用。

Python 能做的 Ruby 也能做,Python 也有 GIL ,Python 跟 Ruby 一样慢

要说 Ruby 缺什么,就是缺对某个领域感兴趣又能把项目完成度做得很高的人。

别整这些没用的,写个 ruby 版的 spring cloud 之类的吧😂

22 楼 已删除

一般来说,Python 能做的,Ruby 应该能做的更好用。

所以,炮哥你开撸吧,star 给你就是

推荐 amber-kit

gem install amber-kit

cxh116 回复

确实 scrapy 的架构做的非常好,你现在用 scrapy 做爬虫吗

Rei 回复

现在所谓「大数据」项目都是基于爬虫,因为自己能产数据的公司太少了...

关注。用过 python、ruby 做过的大神们都来说说!是不是 ruby 起步晚了。

偏个题,我们目前爬虫没有自己搭,而是用了第三方服务,http://www.shenjianshou.cn/, 功能并不多,但是省去了很多运维成本;

炮哥开坑的话,可以多考虑下运维友好。

Ruby 的 mechanize 还行吧,看过一些标题党,我也可以几行代码爬数据,btw 论文本解析,Ruby 应该比 Python 好用太多。

现在的爬虫趋势是用 headless chrome,通过 amazon lambda 运行,之前写过 2 个脚本,支持 ajax,加上 css selector/xpath,用来抓数据非常方便,大规模爬虫,代理IP,都很容易设置。

如果做爬虫框架的话,求支持这种模式。

quakewang 回复

headless + serverless 👏

hooopo 回复

自己的淘宝客项目在用 scrapy 抓取数据练手。

公司有其它同事负责的爬虫项目,不过是用 ruby 自己写的,灵活性相对来说比较弱。

42thcoder 回复

这个看起来很厉害啊 国外也很多基于 scrapy 的 saas 服务 付费的

hooopo 回复

incubator-openwhisk 你值得拥有

为什么不考虑 watir+pantomjs

支持用 ruby 做爬虫框架,ruby 应该会好用不少

最好能高出类似 casperjs 这样炫酷的。

quakewang 回复

曾经就受 capybara + headless chrome 测试启发写爬虫.... 缺点是很慢,超占资源

cxh116 回复

我靠... 居然你还有淘宝客项目

hooooopo 回复

国内还有造数,对应国外的 import.io

hooooopo 回复

做吧做吧,我可以提供无偿劳动😁

最好能把 curl 的参数翻译成 libcurl 解释...

支持,项目开了的话希望能参与,可以做做体力活😁

加油加油,提供个 idea,鼠标选页面一个区域自动生成抓取脚本 (参考 GrowingIO 参考的 Heap 那种),这样就能卖很多💰了

可以参考一下 pyspider https://github.com/binux/pyspider 相当方便

要做就马上开始,很多人可以帮你测试的

无偿体力劳动 +1

需要 登录 后方可回复, 如果你还没有账号请 注册新账号