我们看网站日志的时候不能只是看搜索引擎的日志爬取的频率和返回的http码!要想了解搜索引擎,就必须从它的动态看起,就是要看它一系列都抓取了什么,最长见的问题就是百度蜘蛛只爬取首页的问题,很多站长没有察觉到这个细节,而只是抱怨为什么百度蜘蛛频繁抓取,而快照、搜录并没有很好的表现,甚至出现搜录减少,快照延迟一个星期以上,这些都是百度蜘蛛只爬取首页所带来的问题。
如果出现百度蜘蛛只爬取首页的问题,首先就是要看我们网站的robots.txt,是不是通配符用错了,而导致屏蔽了所有的内页。其次就要看看我们的服务器,同服务器的网站是不是也是这样,看看网站日志是否近期有爬取内页的行为,返回码是什么,等都可以看出来。在此就是想一下自己的优化手段是否合理,比如有没有文章纯采集或者群发等行为。
假如服务器,网站robots.txt,优化策略都没有问题,还是没有解决如何解决百度蜘蛛只爬取首页的问题,那么就要从网站本身的结构上分析,网站结构是否混乱,首页有没有足够的链接指向内页。还要看看网站的质量上,首先就是网站是不是一个超新站,站内内容跟新是否有规律等。
|