Ruby 有没有啥爬虫案例可供参考的啊?

wangping · 2014年09月21日 · 最后由 bo6bear 回复于 2014年10月14日 · 5705 次阅读

有没有啥爬虫案例可供参考的啊?,我想写写爬虫,目前不知道如何下手

Ruby 的确实不多,推荐一个给你,觉得不错,有实例,讲的比较全面,而且易懂: http://ruby.bastardsbook.com/chapters/web-scraping/

之前我也准备问论坛的呢,如果大家能多贡献一些的话,楼主可以总结一下,造福后来人啊

打个酱油。

require "mechanize"
# ruby aichen.rb pagenmber
url="http://www.aisex.com/bt/thread.php?fid=14&page="
page_num=ARGV[0]
agent=Mechanize.new
agent.user_agent_alias = 'Windows IE 9'
file="pics/"
        page=agent.get(url+page_num)
        file=file+page_num+"/"
        page.links_with(:text => /\[\d+P\]/).each do |link|
                puts link.href
                imgcount=0
                next_page=link.click
                subfile=next_page.at('h1#subject_tpc').content
                puts subfile
                next_page.images_with(:src => /jpg/).each do |img|
                        puts img.url
                        begin
                        img.fetch.save(file+subfile+"/"+imgcount.to_s+".jpg")
                        rescue
                                puts "can not get this one"
                        end
                        imgcount+=1
                end
        end

同意 #1 楼 @hemslo 的看法,用 Python 界的 Scrapy 即可

#4 楼 @gyorou 这代码 8 个空格缩进,无法直视啊

#6 楼 @cisolarix 没学过写代码什么规范。等踏上社会再等慢慢被调教了。

#5 楼 @cisolarix 弱问一下,是直接在 ruby 中调用 python 中的 Scrapy 这个包吗?

#8 楼 @bo6bear Scrapy 是独立的框架,不是包

#9 楼 @cisolarix 那想问一下在 ruby 中要怎么才能调用 python 的框架呢,新手,见谅。

小项目自己写 ruby 吧,scrapy 作为一个框架,学习成本在那里,又是 py 写的,没事碰他干嘛呢?

#10 楼 @bo6bear 伸手党。自己搜

#10 楼 @bo6bear 你这个问题到底能不能实现我都不知道。

#13 楼 @cisolarix 我也是不清楚 1 楼的提的这个要怎么在 ruby 中使用才问的。

需要 登录 后方可回复, 如果你还没有账号请 注册新账号