Ruby 有没有好的开源项目,来收集目标网站的内容更新?

hujoy · 2012年01月31日 · 最后由 ruby_sky 回复于 2012年03月14日 · 4436 次阅读

有没有好的机器人,来收集目标网站的内容更新?就像搜索引擎的 spider。

需要根据目标网站定制吧

看看是不是可以直接用 rss

#2 楼 @lyfi2003 rss 聚合比较容易,难就难在目标网站不提供 rss feed.

#2 楼 @lyfi2003 #4 楼 @hujoy Rails 有没有性能好的 RSS 读取插件,大家 常用 哪种呢??

#6 楼 @Rei 好多啊!顺便问一句好了,如果我去找需要的插件,您推荐哪几个网站?

#7 楼 @ruby_sky google reader 订阅 ruby 方面的博客 gem 不是用的时候去找的 是要慢慢积累的 而且大牛博客推荐的 gem 一般都靠谱

#4 楼 @hujoy #8 楼 @hooopo #6 楼 @Rei 我不明白如何把新闻的正文内容解析出来!那里只是提供一个标题与链接,那正文呢?另外写方法获取?

#7 楼 @ruby_sky 我一般先去 ruby-toolbox,然后 google 一下确认还有无更好选择

#11 楼 @Rei 即是把 RSS 的新闻链接抓下来,然后再根据这个链接去爬新闻的主要内容?性能会如何如何?

#12 楼 @ruby_sky 对的,Ruby 似乎在爬虫方面应用也挺多的。性能不清楚,先不考虑吧,实现再说。

#13 楼 @Rei 感觉不容易啊,每个新闻的网页格式都不太一样,需要分析每个网页的 HTML 代码结构。。

@Rei :onclick => "return Topics.reply(#{reply_counter+1},'#{reply.user.name}' );", 这段代码是如何实现的?Topics.reply...这里挺奇怪的。

#15 楼 @ruby_sky 这是哪里?现在一般不写 onclick 了

#16 楼 @Rei 刚刚看明白了。这个代码是出现在回复哪楼,哪个用户的功能。。

需要 登录 后方可回复, 如果你还没有账号请 注册新账号