URL优化之如何避免蜘蛛爬行进入死循环?

时间:2020-09-12
浏览:5
作者:管理员
来源:福客网

小编在搜索seo相关资料时,看到某seo培训教程中提到死循环,但就单纯写了三个字并没有继续介绍。大概是现在网站出现死循环链接的情况比较少,所以相关资料并没有多少,如果有想了解的小伙伴,可以看看本文。

URL优化之如何避免蜘蛛爬行进入死循环?

一、什么是死循环?

对于搜索引擎蜘蛛而言,爬行进入死循环是一件比较郁闷的事。当蜘蛛进入网站的某个页面,而没通往外面的链接时,就容易导致无限的循环而走不出来,不仅浪费蜘蛛体力,还会占用网站大量的爬取频率,最终造成有价值的网页抓取不全,进而无法展现给用户。 比如,蜘蛛从网站首页进入某筛选器页面,90%的爬行记录都在该页面,而有效内容页爬取却非常少。

二、常见的死循环链接形式

那么,哪些属于死循环链接呢?

1)网站存在万年历等非常实用的网站工具。这些工具放在网站上,用户可以无限点击,每次点击都会产生一个新的URL,如果网站没有屏蔽蜘蛛爬取这些内容,那么它就很有可能会被带到一个无限循环的境地。

2)动态链接。比如.php?参数形式,如果网站没有对URL进行规范处理,从文件内部产生不同参数又再次链向自己,那么蜘蛛进去就很难再爬出来了。这种情况下的网站,收录量很大,同时又严重重复收录,其后果基本就是降权。

三、怎么避免蜘蛛进入死循环?

一般我们发现蜘蛛的死循环,就是通过查看网站的iis日志发现。而如何去解决死循环问题,就需要我们认真的去检查网站的程序,找到根源从而排除问题。

1、制定URL规范,去掉无用参数,保证Url的字节长度尽量短

2、调整链接入口(数量+位置),在内容页保证有返回上级目录或其他页面的链接。

3、屏蔽蜘蛛对不必要页面的抓取

1)利用 nofollow + robots.txt禁止相关页面的抓取

2)利用js封装,比如用ajax实现筛选器

4、页面缓存(Last-modified + Etag)

此外,充实详情页内容,让蜘蛛定期重访有效内容,可以提高网站对搜索引擎的友好度。