最近我想做一个论坛爬虫,但是觉得自己从头开始做有点违背 DRY 原则,因此过来问问各位老师有没有做过类似的东西,分享一些经验和介绍一些类似的开源项目。
谢谢!
爬虫这些一般定制性都比较强 , 通常用 nokogiri 这个gem 来解析 HTML 实现 . 另外可以参考 @hooopo 同学的 https://github.com/hooopo/direct_web_spider 项目。
gem
HTML