<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
    <title>vus520 (尘缘)</title>
    <link>https://ruby-china.org/vus520</link>
    <description></description>
    <language>en-us</language>
    <item>
      <title>Ruby 里有没有比较成熟的爬虫框架</title>
      <description>&lt;p&gt;目前来有这几个需求&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;爬行、内容抽取、下载和存储&lt;/li&gt;
&lt;li&gt;支持代理库及代理池，最好能有二级代理功能，可以自己抓取代理列表并验证有效性&lt;/li&gt;
&lt;li&gt;分布式，主服务器能将数据分发到从服务器并能完成数据收集&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;看到社区里有位同志推荐了黄先生的作品，看了一下，在内容抽取方面应该没有大问题
&lt;a href="https://github.com/code4craft/webmagic" rel="nofollow" target="_blank"&gt;https://github.com/code4craft/webmagic&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;分布式和代理这块，ruby 有没有比较稳定的 gem，要想实现一个稳定长期的数据采集服务。&lt;/p&gt;</description>
      <author>vus520</author>
      <pubDate>Mon, 07 Oct 2013 17:10:18 +0800</pubDate>
      <link>https://ruby-china.org/topics/14566</link>
      <guid>https://ruby-china.org/topics/14566</guid>
    </item>
    <item>
      <title>rbenv 安装太慢的解决办法</title>
      <description>&lt;p&gt;rbenv + ruby-build 插件，可以直接使用命令 rbenv install 1.9.3-p448 安装对应的 ruby 版本，但，这样太慢，半小时过去，还在 Downloading&lt;/p&gt;

&lt;p&gt;不过，ruby-build 提供了镜像链接，哈哈&lt;/p&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;&lt;span class="nv"&gt;RUBY_BUILD_MIRROR_URL&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;"http://www.mirrorservice.org/sites/ftp.ruby-lang.org/pub/ruby/1.9/ruby-1.9.3-p448.tar.gz"&lt;/span&gt; rbenv &lt;span class="nb"&gt;install &lt;/span&gt;1.9.3-p448
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;但，这样还是太慢，半小时过去，还在 Downloading，再换个镜像&lt;/p&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;&lt;span class="nb"&gt;env &lt;/span&gt;&lt;span class="nv"&gt;RUBY_BUILD_MIRROR_URL&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;http://mirrors.ibiblio.org/ruby/2.0/ruby-2.0.0-p247.tar.gz rbenv &lt;span class="nb"&gt;install &lt;/span&gt;2.0.0-p247
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;但，这样还是 TMD 太慢，半小时过去，根本就没动呀！！！！&lt;/p&gt;

&lt;p&gt;看到国内有淘宝的镜像了，换个地址再试！因为检查 md5sum，所以需要在 url 后面加个#，问号也可以的&lt;/p&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;&lt;span class="nb"&gt;env &lt;/span&gt;&lt;span class="nv"&gt;RUBY_BUILD_MIRROR_URL&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;http://ruby.taobao.org/mirrors/ruby/2.0/ruby-2.0.0-p247.tar.gz# rbenv &lt;span class="nb"&gt;install &lt;/span&gt;2.0.0-p247
&lt;/code&gt;&lt;/pre&gt;&lt;pre class="highlight shell"&gt;&lt;code&gt;shuhai@Aspire:~/.rbenv/versions&lt;span class="nv"&gt;$ &lt;/span&gt;&lt;span class="nb"&gt;env &lt;/span&gt;&lt;span class="nv"&gt;RUBY_BUILD_MIRROR_URL&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;http://ruby.taobao.org/mirrors/ruby/2.0/ruby-2.0.0-p247.tar.gz# rbenv &lt;span class="nb"&gt;install &lt;/span&gt;2.0.0-p247
Downloading ruby-2.0.0-p247.tar.gz...
-&amp;gt; http://ruby.taobao.org/mirrors/ruby/2.0/ruby-2.0.0-p247.tar.gz#/c351450a0bed670e0f5ca07da3458a5b
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;速度还是慢，我试了一下，用 wget 是可以很快下载完成的，那再换个办法&lt;/p&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;wget &lt;span class="nt"&gt;-q&lt;/span&gt; http://ruby.taobao.org/mirrors/ruby/2.0/ruby-2.0.0-p247.tar.gz &lt;span class="nt"&gt;-O&lt;/span&gt; /home/shuhai/.rbenv/versions/ruby-2.0.0-p247.tar.gz
&lt;span class="nb"&gt;env &lt;/span&gt;&lt;span class="nv"&gt;RUBY_BUILD_MIRROR_URL&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;file:///home/shuhai/.rbenv/versions/ruby-2.0.0-p247.tar.gz# ~/.rbenv/bin/rbenv &lt;span class="nb"&gt;install &lt;/span&gt;2.0.0-p247
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;这个速度那是相当快呀！！！注意的是，文件 URI 后面要加个#或者？&lt;/p&gt;

&lt;p&gt;via:&lt;a href="http://www.4wei.cn/archives/1002162" rel="nofollow" target="_blank"&gt;http://www.4wei.cn/archives/1002162&lt;/a&gt;&lt;/p&gt;</description>
      <author>vus520</author>
      <pubDate>Mon, 07 Oct 2013 13:22:29 +0800</pubDate>
      <link>https://ruby-china.org/topics/14564</link>
      <guid>https://ruby-china.org/topics/14564</guid>
    </item>
  </channel>
</rss>
