不允许robots.txt中以数字结尾的页面
有没有可能告诉谷歌不要抓取这些页面不允许robots.txt中以数字结尾的页面,robots.txt,Robots.txt,有没有可能告诉谷歌不要抓取这些页面 /blog/page/10 /blog/page/20 … /blog/page/100 这些基本上都是Ajax调用,它们带来了博客文章数据 我在robots.txt中创建了这个: User-agent: * Disallow: /blog/page/* 但现在我必须进入另一个我想要的页面,那就是 /blog/page/start 我有没有办法告诉机器人只有以数字结尾的页面 e、 g 在尝试验证robots.txt文件时,我还遇到了一个错误: 按照最初
/blog/page/10
/blog/page/20
…
/blog/page/100
这些基本上都是Ajax调用,它们带来了博客文章数据
我在robots.txt中创建了这个:
User-agent: *
Disallow: /blog/page/*
但现在我必须进入另一个我想要的页面,那就是
/blog/page/start
我有没有办法告诉机器人只有以数字结尾的页面
e、 g
在尝试验证robots.txt文件时,我还遇到了一个错误:
按照最初的robots.txt规范,这将起作用(适用于所有符合要求的机器人,包括谷歌的): 这将阻止路径以
/blog/pages/
开头,后跟任何数字(/blog/pages/9129831823
,/blog/pages/9.html
,/blog/pages/5/10/foo
等)的所有URL。因此,您不应该附加
*
字符(在原始robots.txt规范中,它不是通配符,在您的情况下,对于将其解释为通配符的机器人程序,它不是通配符)
Google支持robots.txt的某些功能,这些功能不是原始robots.txt规范的一部分,因此(所有)其他bot都不支持,例如,Allow
字段。但是由于上面的robots.txt可以工作,因此没有必要使用它
User-agent: *
Disallow: /blog/page/(:num)
User-agent: *
Disallow: /blog/pages/0
Disallow: /blog/pages/1
Disallow: /blog/pages/2
Disallow: /blog/pages/3
Disallow: /blog/pages/4
Disallow: /blog/pages/5
Disallow: /blog/pages/6
Disallow: /blog/pages/7
Disallow: /blog/pages/8
Disallow: /blog/pages/9