企包在线优化之如何解决蜘蛛页面抓取异常
蜘蛛虽然人性化,但终究是程序,有时候抓取的页面可能存在一些问题,抓取页面异常这对我们企包在线优化非常不利,那么蜘蛛页面抓取异常,又该如何解决?
工具/原料
互联网
电脑
一、各类返回码代表什么?
1、(一)404返回码有时候我们打开一个页面,页面一片空白,上面只显示404。这里的404就是一种返回码,代表当前抓取的页面已经失效,遇到显示404的页面,如果短期内搜索,蜘蛛再发现这个页面,也不会对其进行抓取。
2、(二)503返回码有时候会返回503,503返回码代表网站临时无法访问。可能是网站服务器关闭或者其他临时措施造成的网页无法访问,一般来说,蜘蛛还会继续抓取几次。如果网站恢复正常,URL仍然被当作正常URI处理。如果服务器一直处于不可访问状态,那么搜索引擎就会将这些URL彻底从库中删除。这就要求我们企包在线优化必须维护网站的稳定性,尽量避免临时关闭的情况发生。
3、(三)403返回码返回码403是禁止访问状态,一般来说,如同503一样,如被多次访问仍处于禁止访问状态,就会被搜索引擎从库里面删除。
4、(四)301返回码在返回码中,有一类需要格外注意的就是301。301代表永久性移除,当前URL被永久性重定向到另外的URL。一般来说,因为改版等原因,部分URL需要永久被替换为新URL,就必须使用返回码301进行处理,这样能把权重等一并带过去,避免网站的流量损失。
二、信息无法被抓取到如何解决?
1、(一)采用搜索引擎平台提供的开发平台等数据上传通道,可以针对数据进行独立的提交。
2、(二)采用Sitemap提交方式。大型网站或者结构比较特殊的网站,沉淀了大量的历史页面,这些历史页面很多具有SEO的价值,但是蜘蛛无法通过正常的爬行抓取到,针对这些页面,建立Sitemap文件并提交给百度等搜索引擎是非常必要的。