您的位置: 涪陵信息网 > 育儿

从搜索引擎蜘蛛访问日志看蜘蛛访问规律

发布时间:2019-11-23 22:53:14

  从搜索引擎蜘蛛访问日志 看蜘蛛访问规律

  A5任务 SEO诊断选学淘宝客 站长团购 云主机

  为了更好的观察站被蜘蛛爬行的规律,我租用的服务器又没有提供访问日志,不得已,花了不少时间编写了一个基于PHP的专门分析蜘蛛爬行纪录的程序,经过三个月的对几个目标站的观察,得出以下几个小经验给大家分享,当然,因研究有限,肯定有不足的或错误的地方,请大家不要向我扔砖头啊。

  一、百度蜘蛛

  这期间我上了两个新站,发现,百度蜘蛛一般一到三天就可以爬行到首页,开始更新很猛,大约会持续两天到一个星期,三天后就可以在百度中site到首页,虽然百度蜘蛛爬行了上万个页面,但往往只会收录几个页面,两个星期之后,百度将每天只抓取一两次首页,其它页面很少抓取,这个过程会持续一段时间,长的是几个月,短的几天。但百度在这段时间里收录量会有所增加。这段时间 可能是考察期吧。在这段时间里,我的一个站被百度K了,蜘蛛也就不来了。过了这个时间段后,百度蜘蛛访问将趋于稳定,我有两个站百度每天都只来抓取200到300次,收录量变化不大。而我另一个站 可能因为外链较多,百度蜘蛛来得相对较勤,近一个月来,每天来访2万到8万次左右,波动比较大,不过,site一下,百度收录量并不高,这可能要到下次百度大更新时才能反应结果。

  百度蜘蛛访问目标页时,会把URL中的汉字编码字符转换成汉字,(如 会变成 陆建军88/m ,即 %E9%99%86%E5%BB%BA%E5%86%9B88 转换成了 陆建军88 ),这样就会出现一个问题了,如果主机对中文URL支持不好,可能会影响百度的收录。

  百度蜘蛛访问某个站点时,其访问也有一定的规律,不少都是按汉字的音序来访问的。

  二、谷歌蜘蛛

  谷歌蜘蛛对新站发现的速度很快,但收录相对平稳,每天的抓取的页面数也比较稳定,PR越高,外链越多的站更新越快。反之,GOOGLE PR低的站更新较慢。

  三、搜捭、搜狗、有道蜘蛛

  更新比较快,但不太稳定,每天的访问波动也比较大,比百度更难捉摸,我有个站被搜搜和搜狗都K得只剩首页了。

  四、雅虎、MSN

  雅虎的更新快,但收录少,MSN的更新极慢。

  对于t的支持,百度、谷歌、搜捭、搜狗、雅虎、MSN等的蜘蛛支持度比较好,对robots的Crawl-delay 语法也能很好的支持。

  而有道蜘蛛基本上不理会t 的Crawl-delay 语法。

  附今天的访问日志截图:

民生舆情
食材
通信
猜你会喜欢的
猜你会喜欢的