瞎扯淡 10 小时做的采集小应用

cxh116 · 2012年12月09日 · 最后由 greatghoul 回复于 2014年06月13日 · 5362 次阅读

基于 Sinatra 和 Mechanize,暂时只是一个简单的页面代理. 看论坛有些新人问些采集的问题,希望此应用有所帮助. 代码量大概 150 行,无测试代码 github: https://github.com/mangege/hncsd

功能介绍

把表单隐藏字段与验证码给抓取过来后在页面上显示,提交表单到远程并解析返回结果. 具体看效果 原始页面:http://www.hncsjj.gov.cn/QueryJDCWZOther.aspx 代理页面 (部署在暂时免费的盛大云引擎): http://hncsd.sdapp.cn/

放出源码让大家学习是不是更好一点呢

#1 楼 @woaigithub 不好意思,忘记贴地址了

mechanize + Sinatra真是高效,所有发帖机采集器都该重写了。。。 #2 楼 @cxh116 这样抓取会不会很容易被封,有没有自动修改 ip 的办法?

#3 楼 @camel 自动修改 ip? 服务器方案只能用代理实现,需要自己找到有效的代理服务器列表。实现起来估计有点难度,比如自动切换代理 家庭方案可以用代码自动重拔路由

#4 楼 @cxh116 记得很久以前限制 ip 的投票机就是写 bat 重拨号绕过的,哈哈 我在想除了你提到的两种方案之外,还有没有其它方案。

有些网站有漏洞 可以伪造 ip 设置 x-forward-for 可以

切换代理应该是应对 ip 检查很有效的方法~

我之前也在做全国违章查询的一些抓取。 发现有两家做的比较全。搜狐车友会(http://saa.auto.sohu.com/wzcx/get.at),主要城市的都做了,这个必然是抓取的 至尊租车(http://wz.top1.cn/)很多网站验证码都不用输入,我怀疑是否直接走的政府部门。。。

Wow 抓取我所在的城市的车辆违章信息 哈哈

github 链接 404 了...

#11 楼 @linsk http://www.juhe.cn/

这个网站也有提供一些违章查询的接口。

需要 登录 后方可回复, 如果你还没有账号请 注册新账号