不允许robots.txt中以数字结尾的页面

不允许robots.txt中以数字结尾的页面,robots.txt,Robots.txt,有没有可能告诉谷歌不要抓取这些页面 /blog/page/10 /blog/page/20 … /blog/page/100 这些基本上都是Ajax调用,它们带来了博客文章数据 我在robots.txt中创建了这个: User-agent: * Disallow: /blog/page/* 但现在我必须进入另一个我想要的页面,那就是 /blog/page/start 我有没有办法告诉机器人只有以数字结尾的页面 e、 g 在尝试验证robots.txt文件时,我还遇到了一个错误: 按照最初

有没有可能告诉谷歌不要抓取这些页面

/blog/page/10
/blog/page/20
…
/blog/page/100
这些基本上都是Ajax调用,它们带来了博客文章数据

我在robots.txt中创建了这个:

User-agent: *
Disallow: /blog/page/*
但现在我必须进入另一个我想要的页面,那就是

/blog/page/start
我有没有办法告诉机器人只有以数字结尾的页面 e、 g

在尝试验证robots.txt文件时,我还遇到了一个错误:


按照最初的robots.txt规范,这将起作用(适用于所有符合要求的机器人,包括谷歌的):

这将阻止路径
/blog/pages/
开头,后跟任何数字(
/blog/pages/9129831823
/blog/pages/9.html
/blog/pages/5/10/foo
等)的所有URL。
因此,您不应该附加
*
字符(在原始robots.txt规范中,它不是通配符,在您的情况下,对于将其解释为通配符的机器人程序,它不是通配符)

Google支持robots.txt的某些功能,这些功能不是原始robots.txt规范的一部分,因此(所有)其他bot都不支持,例如,
Allow
字段。但是由于上面的robots.txt可以工作,因此没有必要使用它

User-agent: *
Disallow: /blog/page/(:num)
User-agent: *
Disallow: /blog/pages/0
Disallow: /blog/pages/1
Disallow: /blog/pages/2
Disallow: /blog/pages/3
Disallow: /blog/pages/4
Disallow: /blog/pages/5
Disallow: /blog/pages/6
Disallow: /blog/pages/7
Disallow: /blog/pages/8
Disallow: /blog/pages/9