网站的CDN解析还需要解析给百度 谷歌等蜘蛛

2016年12月12日18:08:37 发表评论 224

服务器错误:爬虫发起抓取,httpcode返回码是5XX

这个鬼到底是什么意思,肉球在网上各种找,终于在找了大量的页面看了不下于十几篇文章之后,终于发现了这个问题到底是什么问题,

尼玛,这个问题居然只会发生在配置了cdn加速的服务器上面,具体原因不详,肉球也解释不了,毕竟还没有到达那个高度,今天主要是说说这个问题到底怎么解决。

还是先说说我理解到的原理吧!不然不知道这篇文章写得出多少个字,嘿嘿。

网站有“sitemap”文件那或许会还好些,比如肉球这种用的是“wordpress”并且是多种文章类型的,网上普通的插件基本上只会获取文章这个类型的连接,并添加进去,如果是其他的类型文章好像这种网站地图插件基本上是收费的,一部分站长,就像肉球这种草根都不算的站长,基本上是不会用了。

一般的网站上面都会有缓存机制,这个缓存插件主要是给用户的浏览器能够更快的访问我们的网站,那么一个问题就来了,蜘蛛的访问方式也是跟用户浏览方式一样的,如果缓存没有刷新,那蜘蛛来的时候,意味着,网站的内容更上一次蜘蛛来的时候没有变化,蜘蛛肯定不会抓取了。

如我用的是阿里云的“cdn”由于这个cdn都有一个缓存命中率,虽然一般都是图片或者js文件等等的,那就意味着蜘蛛来的时候也是这样的。网站的CDN解析还需要解析给百度 谷歌等蜘蛛

那么就意味着有可能在服务器忙或者网站性能在某一个时间点性能下降的时候,蜘蛛来的时候,就会出现我上述说的问题。网站的CDN解析还需要解析给百度 谷歌等蜘蛛

对于自己的理解,不是太全面,也不知道对不对,先拿自己开刀,如果对了,那么恭喜自己,中奖了,网站收录加速,如果不对反正也就是博客,来一些老用户就好了。

解决方案也简单,只需要域名解析那里将自己的域名解析给:百度、谷歌、雅虎等等这些搜索引擎网站,网站的CDN解析还需要解析给百度 谷歌等蜘蛛

解析域名我选择的是“@”后面记录值,填写您的服务器ip即可,虽然很多工具都能够测试出网站当前的ip但是肉球还是愚蠢的给遮盖住了。无所谓了。

解析的方式也简单,小伙伴们,自己可以参考一下我的。

最后再说多一句,就是不知道肉球说的对不对,我也只是测试,小伙伴们如果肉球说错了,欢迎来骂死这个bitch。

weinxin
微信公众号“卟吥”
这是我的微信扫一扫呗,已经有三百多小伙伴们跟着肉球菌吃瓜了,你还在等什么呢?跟我一起吧!
肉球

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: