Ruby Ruby 爬虫框架

hooopo · 发布于 2017年11月06日 · 最后由 dayudodo 回复于 2017年11月14日 · 2604 次阅读
8

翻到 这个帖子: https://ruby-china.org/topics/22711

最近看了一下 Python 的 scrapy,感觉没有什么特别的地方,用 Ruby 实现的话技术上也没什么不可行的,甚至更好用(Python那语法,不说了)。不知道大家有没有 Ruby 爬虫框架的需求。想撸一个。

共收到 46 条回复
1553

有,开撸吧,给你 Star,

机器学习 输给 python 也就罢了,爬虫无论如何不能输给 python 啊~

15420

scrapy 配置几项就按照配置爬了,Ruby也可以做到

8
1553Peter 回复

是啊 不能输在起跑线上 😅

6764

必须有啊, 一直觉得 scrapy 挺弱的, 也没做啥, 但是知名度就是高, 好多小白都慕名来学 Python

8
676442thcoder 回复

『好多小白都慕名来学 Python』 好气哦

8602dd

我只能献上我的star了

101

有人用golang写了一个:gopa

8
101daqing 回复

看起来不错,不过文档太简陋了,爬虫框架默认集成ES,有点莫名其妙啊

775
8hooopo 回复

ES不是做全文检索吗?

8
775nouse 回复

看懂了,他提供了一个默认的search console,果然是ES官方的写爬虫也不忘加私货 😅

1232

案例一波 @fredwuhttps://github.com/fredwu/crawler (不过我没用过😅)

2575

@tony612 我也想到这个了。Elixir 的并发模型应该是很适合爬虫的场景。

188

😎 我丢顶帽子来收比特币赞助... 😏

C5fc5e

我在2个项目中用到了 scrapy, 说真的, 感觉自己用ruby写可能更灵活一点, scrapy其实就并发和调度这块做的不错,但是用ruby+sidekiq+redis也可以实现

C5fc5e
1553Peter 回复

我觉得python比较偏数据分析,至于机器学习,需要建立在大规模的数据集合之上,个人觉得scala+spark更合适

8
1232tony612 回复

@fredwu great,这个完成度不错啊,学习一下

8
C5fc5esharpx 回复

是啊 讲道理,ruby做爬虫是强项,居然没有一个成熟的框架

8744

需要一个 rb-readability

1

第一次写出来的实用程序就是爬虫,后来一直对爬虫没兴趣,因为不想做一个基于爬别人的数据的应用。

Python 能做的 Ruby 也能做,Python 也有 GIL ,Python 跟 Ruby 一样慢

要说 Ruby 缺什么,就是缺对某个领域感兴趣又能把项目完成度做得很高的人。

3a5cee

别整这些没用的,写个ruby版的spring cloud之类的吧😂

22楼 已删除
27

一般来说,Python 能做的,Ruby 应该能做的更好用。

所以,炮哥你开撸吧,star 给你就是

96

推荐 amber-kit

gem install amber-kit

8
17cxh116 回复

确实 scrapy的架构做的非常好,你现在用scrapy做爬虫吗

8
1Rei 回复

现在所谓「大数据」项目都是基于爬虫,因为自己能产数据的公司太少了...

D37657

关注。 用过python 、ruby 做过的大神们都来说说!是不是ruby 起步晚了。

6764

偏个题, 我们目前爬虫没有自己搭, 而是用了第三方服务, http://www.shenjianshou.cn/, 功能并不多, 但是省去了很多运维成本;

炮哥开坑的话, 可以多考虑下运维友好.

2973

Ruby 的 mechanize 还行吧,看过一些标题党,我也可以几行代码爬数据,btw 论文本解析,Ruby 应该比 Python 好用太多。

162

现在的爬虫趋势是用headless chrome,通过 amazon lambda 运行,之前写过2个脚本,支持ajax,加上css selector/xpath,用来抓数据非常方便,大规模爬虫,代理IP,都很容易设置。

如果做爬虫框架的话,求支持这种模式。

8
162quakewang 回复

headless + serverless 👏

17
8hooopo 回复

自己的淘宝客项目在用 scrapy 抓取数据练手.

公司有其它同事负责的爬虫项目,不过是用 ruby 自己写的,灵活性相对来说比较弱.

13903
676442thcoder 回复

这个看起来很厉害啊 国外也很多基于scrapy的saas服务 付费的

8898
8hooopo 回复

incubator-openwhisk 你值得拥有

15795

为什么不考虑 watir+pantomjs

96

支持用ruby做爬虫框架,ruby应该会好用不少

808dfd

最好能高出类似casperjs这样炫酷的。

6061
162quakewang 回复

曾经就受 capybara + headless chrome 测试启发写爬虫.... 缺点是很慢, 超占资源

3873
17cxh116 回复

我靠... 居然你还有淘宝客项目

3873
13903hooooopo 回复

国内还有造数,对应国外的import.io

96
13903hooooopo 回复

做吧做吧,我可以提供无偿劳动😁

2880

最好能把 curl 的参数翻译成 libcurl 解释...

0967c2

支持,项目开了的话希望能参与,可以做做体力活😁

2622

加油加油,提供个idea,鼠标选页面一个区域自动生成抓取脚本(参考GrowingIO参考的Heap那种),这样就能卖很多💰了

6361

可以参考一下 pyspider https://github.com/binux/pyspider 相当方便

2358

要做就马上开始,很多人可以帮你测试的

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册