<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
    <title>yijingping (易先生个蛋)</title>
    <link>https://ruby-china.org/yijingping</link>
    <description></description>
    <language>en-us</language>
    <item>
      <title>开源公司内部的微信爬虫，寻求志同道合的人一起来改进</title>
      <description>&lt;p&gt;一个爬取微信公众号文章的爬虫&lt;/p&gt;

&lt;p&gt;github: &lt;a href="https://github.com/bowenpay/wechat-spider" rel="nofollow" target="_blank"&gt;https://github.com/bowenpay/wechat-spider&lt;/a&gt;&lt;/p&gt;
&lt;h2 id="微信爬虫的由来"&gt;微信爬虫的由来&lt;/h2&gt;
&lt;p&gt;我们是一家帮助中国 5000 万贫困人口与社会公益组织的对接的公司。&lt;/p&gt;

&lt;p&gt;我们通过国家和地方政府的“建档立卡”系统，获取到了一手的贫困户数据，目前有 100 万左右，总数为 5000 万，目前每个月都在增长。&lt;/p&gt;

&lt;p&gt;为了帮助这部分贫困户对接公益机构，我写了这个微信爬虫，从微信公众号发布的文章中上找出最新的公益项目。&lt;/p&gt;

&lt;p&gt;这种找项目的方式的可行性，我们还在试验中。&lt;/p&gt;

&lt;p&gt;起初，为了快速上线，本爬虫的代码是基于我的另一个 &lt;a href="https://github.com/yijingping/unicrawler" rel="nofollow" target="_blank" title=""&gt;通用爬虫项目&lt;/a&gt; 开发的，还不是很完善，所以希望任何对本项目感兴趣的人联系我，与我一同改进这个项目。&lt;/p&gt;

&lt;p&gt;联系方式：在该 issue 下留言告诉我 &lt;a href="https://github.com/bowenpay/wechat-spider/issues/1" rel="nofollow" target="_blank" title=""&gt;点击去留言&lt;/a&gt;&lt;/p&gt;
&lt;h2 id="界面预览"&gt;界面预览&lt;/h2&gt;
&lt;p&gt;1）要爬取的微信公众号列表&lt;/p&gt;

&lt;p&gt;&lt;img src="https://github.com/bowenpay/wechat-spider/blob/master/docs/images/1.jpg?raw=true" title="" alt=""&gt;&lt;/p&gt;

&lt;p&gt;2）要爬取的文章关键字列表&lt;/p&gt;

&lt;p&gt;&lt;img src="https://github.com/bowenpay/wechat-spider/blob/master/docs/images/2.png?raw=true" title="" alt=""&gt;&lt;/p&gt;

&lt;p&gt;3）已经爬取的微信文章&lt;/p&gt;

&lt;p&gt;&lt;img src="https://github.com/bowenpay/wechat-spider/blob/master/docs/images/3.png?raw=true" title="" alt=""&gt;&lt;/p&gt;

&lt;p&gt;4）查看文章，并标记是否可用&lt;/p&gt;

&lt;p&gt;&lt;img src="https://github.com/bowenpay/wechat-spider/blob/master/docs/images/4.jpg?raw=true" title="" alt=""&gt;&lt;/p&gt;

&lt;p&gt;5）控制爬取进程数&lt;/p&gt;

&lt;p&gt;&lt;img src="https://github.com/bowenpay/wechat-spider/blob/master/docs/images/5.png?raw=true" title="" alt=""&gt;&lt;/p&gt;
&lt;h2 id="使用到的技术和框架"&gt;使用到的技术和框架&lt;/h2&gt;
&lt;p&gt;django mysql redis lxml selenium&lt;/p&gt;</description>
      <author>yijingping</author>
      <pubDate>Tue, 20 Sep 2016 18:39:10 +0800</pubDate>
      <link>https://ruby-china.org/topics/31113</link>
      <guid>https://ruby-china.org/topics/31113</guid>
    </item>
  </channel>
</rss>
