Robots.txt对于任何一个从事SEO研究工作的人都是至关重要的,因为透过 Robots.txt我後们可以直接与搜索引擎蜘蛛进行对话,哪些可以抓取,哪些不可以抓取。
1、蜘蛛在发现一个网站的时候,第一步是抓取网站的Robots.txt文件(当然官方上是这么说的,有时候也会出现不遵守的情况);
2、建议所有的网站都要设置Robots.txt文件,如果你认为网站上所有内容都是重要的,你可以建立一个空的robots.txt文件;
3、你可以在robots.txt中添加网站的地图,告诉蜘蛛网站地图所在的地址。
4、在蜘蛛协议中,Disallow与Allow是有顺序的,这是一个非常重要的问题,如果设置错误可能会导致抓取错误。
5、在蜘蛛协议中,Allow和Disallow后面可以跟两种路径形式,即绝对链接、相对链接。绝对链接就是完整的URL形式,而相对链接只针对根目录。
6、斜杠问题 Disallow:/seojc/表示禁止抓取seojc这个目录,而seojc.1.html、seojc/rmjc.php是可以抓取的。
|