运维 如何让 Baidu 爬取 https 网站内容

yuh · 2014年02月15日 · 最后由 dplord 回复于 2014年11月19日 · 4814 次阅读

公司新网站打算采用 https 访问,对于 http 请求全部强制 301 到 https,但是发现修改之后 baidu spider 不再收录网站内容了,但是 google 就可以。搜索后发现貌似只有 google spider 支持 https site 的爬取,其他搜索引擎基本只支持 http。 这个真有点坑爹,现在想到的办法是在 nginx 中配置判断是否为 spider,如果是则直接通过 http 访问;其他用户还是重定向到 https。

不知道大家对这种情况是怎么处理的?(不要说 say no to baidu 啊,网站目标客户是国内小白上网用户,baidu 没法绕开)

绕不开没办法,要么放弃 https,要么放弃百度

百度竟然不收录 https!!

没遇到过楼主的情况,不过我觉得楼主的想法可行。通过 UA 判断是否是 baidu spider, 放行

#3 楼 @ruohanc 目前没别的办法,先加上试一下。

#2 楼 @jiang_plus 还是我 google 高大上,加了 https 后 baidu 原来收录的内容都被删除了。。。

#1 楼 @huihen 难道高大上和 baidu 不可兼得吗。。。。

#6 楼 @yuh baidu 的站长工具用了么.?

#7 楼 @ruohanc 用了,在站长工具上看到索引量变少,才发现这个问题。

就是不收的吧,没见过百度收 https,这点怎么不抄下 google

#9 楼 @shiny 这就是大家喜欢 google 的原因之一

对于小白来说 https http 没区别

这一点真的不能成为 google 高大上的辨别,百度不错的,将就一下下

baidu site:tebtc.com

百度慢慢也收录了。现在百度内网全部使用 https 估计这半年就会处理好的

需要 登录 后方可回复, 如果你还没有账号请 注册新账号