Ruby 有没有好的开源项目，来收集目标网站的内容更新?

hujoy · 2012年01月31日 · 最后由 ruby_sky 回复于 2012年03月14日 · 4544 次阅读

有没有好的机器人，来收集目标网站的内容更新？就像搜索引擎的 spider。

1 个赞

无引用文章

cqpx #0 2012年01月31日

需要根据目标网站定制吧

lyfi2003 #1 2012年01月31日

看看是不是可以直接用 rss

master #2 2012年01月31日

hujoy #3 2012年01月31日

#2 楼 @lyfi2003 rss 聚合比较容易，难就难在目标网站不提供 rss feed.

ruby_sky #4 2012年02月17日

#2 楼 @lyfi2003 #4 楼 @hujoy Rails 有没有性能好的 RSS 读取插件，大家常用哪种呢？？

Rei #5 2012年02月17日

ruby_sky #6 2012年02月17日

#6 楼 @Rei 好多啊！顺便问一句好了，如果我去找需要的插件，您推荐哪几个网站？

hooopo #7 2012年02月17日

#7 楼 @ruby_sky google reader 订阅 ruby 方面的博客 gem 不是用的时候去找的是要慢慢积累的而且大牛博客推荐的 gem 一般都靠谱

ruby_sky #8 2012年02月18日

#4 楼 @hujoy #8 楼 @hooopo #6 楼 @Rei 我不明白如何把新闻的正文内容解析出来！那里只是提供一个标题与链接，那正文呢？另外写方法获取？

Rei #9 2012年02月18日

#7 楼 @ruby_sky 我一般先去 ruby-toolbox，然后 google 一下确认还有无更好选择

Rei #10 2012年02月18日

ruby_sky #11 2012年02月18日

#11 楼 @Rei 即是把 RSS 的新闻链接抓下来，然后再根据这个链接去爬新闻的主要内容？性能会如何如何？

Rei #12 2012年02月18日

#12 楼 @ruby_sky 对的，Ruby 似乎在爬虫方面应用也挺多的。性能不清楚，先不考虑吧，实现再说。

ruby_sky #13 2012年02月18日

#13 楼 @Rei 感觉不容易啊，每个新闻的网页格式都不太一样，需要分析每个网页的 HTML 代码结构。。

ruby_sky #14 2012年03月14日

@Rei :onclick => "return Topics.reply(#{reply_counter+1},'#{reply.user.name}' );", 这段代码是如何实现的？Topics.reply...这里挺奇怪的。

Rei #15 2012年03月14日

#15 楼 @ruby_sky 这是哪里？现在一般不写 onclick 了

ruby_sky #16 2012年03月14日

#16 楼 @Rei 刚刚看明白了。这个代码是出现在回复哪楼，哪个用户的功能。。

需要登录后方可回复, 如果你还没有账号请注册新账号