SEO优化:robots.txt

编辑于:2023年05月23日

SEO优化:robots.txt

robots.txt的位置在网站的根目录,可以以https://cccitu.com/robots.txt的形式在浏览器打开。robots.txt 的作用是告诉搜索引擎爬虫(例如谷歌、百度等)哪些页面或文件可以被爬取,哪些不可以。

1. robots.txt 文件的基本语法

  • ⭕User-agent:指定爬虫名称。通常用*代表所有爬虫。
  • ⭕Allow:指定允许爬虫抓取的 URL 路径。
  • ⭕Disallow:指定禁止爬虫抓取的 UR L路径。
  • ⭕Sitemap:指定网站的 Sitemap 文件的位置,帮助爬虫更好地了解网站结构。

2. robots.txt 文件配置示例

示例1:允许所有搜索引擎爬虫访问所有内容

User-agent: *
Disallow:

示例2:禁止所有搜索引擎爬虫访问网站

User-agent: *
Disallow: /

示例3:允许所有搜索引擎爬虫访问网站,但禁止抓取特定目录(例如:/private/)

User-agent: *
Disallow: /private/

示例4:禁止特定搜索引擎爬虫(例如:Googlebot)访问网站

User-agent: Googlebot
Disallow: /

示例5:禁止抓取特定文件类型(例如:.pdf文件)

User-agent: *
Disallow: /*.pdf$

示例6:指定Sitemap文件位置

Sitemap: https://www.example.com/sitemap.xml

请注意,robots.txt 文件的规则是区分大小写的,且每条规则都必须独立一行。此外,虽然大多数搜索引擎遵循robots.txt文件的规则,但它们并无法完全阻止恶意爬虫抓取网站内容。

3. robots.txt 规则的优先级

robots.txt文件中,规则的优先级受多种因素影响。以下是一些关于优先级的情况和示例:

示例1. 最长匹配原则:

当存在多个规则与URL相匹配时,遵循最长匹配原则。即最具体的规则优先级最高。

示例:

User-agent: *
Disallow: /folder/
Allow: /folder/subfolder/

在这个例子中,/folder/subfolder/的优先级高于/folder/。因此,所有搜索引擎爬虫可以访问/folder/subfolder/,但不能访问其他/folder/下的内容。

示例2. 特定爬虫优先级高于通配符:

针对特定爬虫的规则优先级高于使用通配符的规则。

示例:

User-agent: Googlebot
Disallow: /private/

User-agent: *
Allow: /private/

在这个例子中,Googlebot爬虫被禁止访问/private/目录,但其他搜索引擎爬虫可以访问。

示例3. 顺序敏感:

当两个规则长度相同且存在冲突时,遵循先出现的规则。

示例:

User-agent: *
Allow: /folder/
Disallow: /folder/

在这个例子中,允许所有搜索引擎爬虫访问/folder/,因为Allow规则先于Disallow规则出现。

4. robots.txt 规则生效测试

像百度搜索资源平台、必应站长等都支持通过输入 URL 来测试 robots.txt 规则禁止或允许抓取。

百度搜索资源平台

必应站长

相关推荐

暂无评论