安全 爬虫可以直接爬取公网文件?!

cassiuschen · 2014年03月16日 · 最后由 cassiuschen 回复于 2014年03月17日 · 5442 次阅读

慎思密恐啊………… 刚刚查询我服务器的日志,结果发现两天前服务器出现了异常的下行流量,仔细一看是我当初为了方便我自己用服务器缓存的 atom 压缩包…… 整整三个小时下载了 113 次,ip 涵盖从中国到越南、印度、法国、美国等多个国家…… 我这个缓存的位置的确可以公网访问,但是也从未在网上贴上过下载地址,下载地址也是很长的一串不是在根域名之下的……十分想不通这是什么情况…………难道是下载软件的爬虫或者是什么资源站的爬虫干的?现在爬虫真的可以直接爬取暴露在公网上的文件的 MD5 么?

另外,访问我这里 Writings 的日志里出现了很多Parameters: {"a"=>"phpTest/zologize/axa"},这是什么情况?是有人想要试图探究一下 writings 是不是 php 写的么?

好可怕居然还有在试我是不是有用 phpmyadmin 什么的怪蜀黍>~<第一次服务器受到这样的请求好怕怕>~<

用迅雷下的,还是什么?

#1 楼 @xiaogui 从 UserAgent 上看不出是迅雷,都是 Mozilla……

我是说,你有没有用过类似迅雷的下载工具下过那个文件?

在正常不过了,服务一但暴露到公网就会有很多人来搞的

你的日志文件名是什么?

7 楼 已删除
8 楼 已删除
9 楼 已删除
10 楼 已删除
11 楼 已删除

#6 楼 @swordray ?nginx-access.log……

#5 楼 @mojidong >~<幸亏服务端、管理端以及数据库是分离的………

#12 楼 @cassiuschen 这么好的名字爬虫想不猜到都难

#14 楼 @swordray ?nginx 日志又不能外网访问…怎么爬?而且难道你们都手动修改 nginx 的日志么?

#15 楼 @cassiuschen

我这个缓存的位置的确可以公网访问

是你放到公网的啊

#16 楼 @swordray 我说的是 atom 的安装包…不是日志= =!

怀疑是哪个流程出现的问题,但不应该是直接爬取目标文件。

#18 楼 @shiny 按说是……但好奇怪…………文件反正已经删了应该没这个问题了……

#2 楼 @cassiuschen 现在所有的浏览器的 UA 都是 Mozilla 开头的…

#20 楼 @liudangyi 嗯……所以只是认为应该不是下载工具吧……

需要 登录 后方可回复, 如果你还没有账号请 注册新账号