robots.txt文件规则

robots.txt文件协议是什么?搜索引擎的蜘蛛在访问网站时,会首先去访问网站根目录下的robots.txt文件,会按照这个文件中指定的robots协议不去抓取网站中的部分内容。robots文件规则就是控制搜索引擎的蜘蛛抓取网站内容的规则。

robots.txt

1、robots.txt文件位置

网站根目录,也就是域名的下一级,名称就是robots.txt,如:

https://seo.xiaoxiaoketang.com/ robots.txt

2、robots.txt文件不可不存在

某些SEO人员可能会说,网站内容让蜘蛛随便抓取,无需在服务器端放置robots.txt文件。这种说法是错误的。因为有的服务器设置有问题,如果robots.txt文件不存在,服务器会返回200状态码及一些错误信息,而不是404状态码,这很有可能让搜索引擎的蜘蛛误读robots.txt文件内容。

故,就算允许搜索引擎蜘蛛随意抓取,也应该创建一个空的robots.txt文件。

3、robots.txt文件的基本格式

robots文件由记录组成,记录之间以空行分开。记录格式如下:

<域>:<可选空格><域值><可选空格>

空格可以在域值两边可加可不加,可以简单记为:

<域>:<域值>

robots.txt文件最简单样式为:

User-agent: *

Disallow: /

不过此robots.txt文件不建议使用,因为这个是禁止所有搜索引擎抓取任何内容。

允许所有搜索引擎抓取任何内容的robots.txt为:

User-agent: *

Disallow:

4、robots.txt文件的写法

1)User-agent

指定下面的规则适用于哪个蜘蛛,通配符星号*代表所有搜索引擎。

以下规则适用于所有搜索引擎:

User-agent: *

只适用于百度:

User-agent: Baiduspider

只适用于Google蜘蛛:

User-agent: Googlebot

2)Disallow

告诉蜘蛛不要去抓取某些文件或目录。

写法:每禁止一个抓取一个文件或目录,都必须另起一行,同一行不能禁止抓取两个文件或两个目录或一个文件一个目录。

如禁止抓取temp和a目录,禁止抓取w目录下的33.html和11.html。

Disallow: /temp/

Disallow: /a/

Disallow: /w/33.html

Disallow: /w/11.html

切勿写为Disallow: /temp/ /a/

3)Allow

告诉蜘蛛应该抓取某些文件或目录。由于不指定则是允许抓取,故Allow必须和Disallow一起用。

如禁止抓取目录a下的文件,在允许抓取b目录下的文件,而b目录在目录a下。

Disallow: /a/

Allow: /a/b/

4)$

通配符$,匹配URL结果的字符。

如禁止抓取.jpg格式的图片:

Disallow: .jpg$

如允许抓取所有.htm文件:

Allow: .htm$

5)*

通配符*,匹配任意字符。

6)Sitemap

告诉搜索引擎网站sitemaps的位置,是对搜索引擎蜘蛛的友好。当然一般情况下sitemaps也是放在网站根目录(如小小课堂的sitemap位置,https://seo.xiaoxiaoketang.com/  sitemap.xml)。

Sitemap: https://seo.xiaoxiaoketang.com/  sitemap.xml

robots是禁止抓取的,还有一种方式为禁止索引,noindex meta robots标签。

6、禁止索引

noindex meta robots标签是页面<head></head>中间的meta标签的一种,用于告诉搜索引擎禁止索引本页内容,因而也就不会出现在搜索引擎的结果页面中了。

格式如下:

<meta name=”robots” content=”noindex”,nofollow>

意思为禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。

百度仅支持nofollow和noarchive。Google、必应都支持下面标签。

noindex:不要索引本页面。

nofollow:不要跟踪本页面上的链接。

nosnippet:不要在搜索结果中显示摘要文字。

noarchive:告诉搜索引擎不要显示快照。

noodp:不要使用开放目录中的标题和描述。

最后一个要介绍的就是<a>标签上的rel=”nofollow”,最初这个标签的创造是为了告诉搜索引擎,这个链接非站长自主编辑,不要传递权重。后来,慢慢就变成了控制网站权重流动的一种方式。

有人说,nofollow有欺骗搜索引擎的嫌疑,不如直接优化网站内链来达到掌控网站权重的分配。

Google对nofollow很可能起到反作用,对加nofollow的链接不传递权重,但同时会使网站权重白白流失,故做英文网站需要注意这一点。百度对于nofollow的处理不同,加了nofollow的链接不传递权重,也不浪费权重,做中文网站可以在需要的地方使用nofollow。

以上就是小小课堂带给大家的robots协议是什么和robots.txt文件规则的相关内容。感谢您的观看。小小课堂SEO教程自学网。SEO咨询服务认准小小课堂!

为您推荐

error: Content is protected !!