有没有好的机器人,来收集目标网站的内容更新?就像搜索引擎的 spider。
需要根据目标网站定制吧
看看是不是可以直接用 rss
需要自己写,可以参考 @hooopo https://github.com/hooopo/direct_web_spider
#2 楼 @lyfi2003 rss 聚合比较容易,难就难在目标网站不提供 rss feed.
#2 楼 @lyfi2003 #4 楼 @hujoy Rails 有没有性能好的 RSS 读取插件,大家 常用 哪种呢??
#5 楼 @ruby_sky https://www.ruby-toolbox.com/categories/feed_parsing
#6 楼 @Rei 好多啊!顺便问一句好了,如果我去找需要的插件,您推荐哪几个网站?
#7 楼 @ruby_sky google reader 订阅 ruby 方面的博客 gem 不是用的时候去找的 是要慢慢积累的 而且大牛博客推荐的 gem 一般都靠谱
#4 楼 @hujoy #8 楼 @hooopo #6 楼 @Rei 我不明白如何把新闻的正文内容解析出来!那里只是提供一个标题与链接,那正文呢?另外写方法获取?
#7 楼 @ruby_sky 我一般先去 ruby-toolbox,然后 google 一下确认还有无更好选择
#9 楼 @ruby_sky 抓下来之后用 xml 解析器处理 https://www.ruby-toolbox.com/categories/html_parsing
#11 楼 @Rei 即是把 RSS 的新闻链接抓下来,然后再根据这个链接去爬新闻的主要内容?性能会如何如何?
#12 楼 @ruby_sky 对的,Ruby 似乎在爬虫方面应用也挺多的。性能不清楚,先不考虑吧,实现再说。
#13 楼 @Rei 感觉不容易啊,每个新闻的网页格式都不太一样,需要分析每个网页的 HTML 代码结构。。
@Rei :onclick => "return Topics.reply(#{reply_counter+1},'#{reply.user.name}' );", 这段代码是如何实现的?Topics.reply...这里挺奇怪的。
#15 楼 @ruby_sky 这是哪里?现在一般不写 onclick 了
#16 楼 @Rei 刚刚看明白了。这个代码是出现在回复哪楼,哪个用户的功能。。