Web crawler 如何设置robot.txt,它只允许站点的默认页面

Web crawler 如何设置robot.txt,它只允许站点的默认页面,web-crawler,bots,robots.txt,googlebot,slurp,Web Crawler,Bots,Robots.txt,Googlebot,Slurp,假设我有一个网站。我真的很想让机器人看到主页,但任何其他页面都需要阻止,因为这对蜘蛛来说毫无意义。换句话说 应允许,但 而且应该被封锁 此外,如果我可以允许某些查询字符串传递到主页,那就太好了: 但不是 基本机器人.txt: Disallow: /subdir/ 我不认为你可以创建一个表达“除了根以外的一切”,你必须填写所有的子目录 robots.txt中也不可能存在查询字符串限制。您必须在后台代码(处理部分)中完成,或者可能使用服务器重写规则 Disallow: * Allow: inde

假设我有一个网站。我真的很想让机器人看到主页,但任何其他页面都需要阻止,因为这对蜘蛛来说毫无意义。换句话说

应允许,但 而且应该被封锁

此外,如果我可以允许某些查询字符串传递到主页,那就太好了:

但不是 基本机器人.txt:

Disallow: /subdir/
我不认为你可以创建一个表达“除了根以外的一切”,你必须填写所有的子目录

robots.txt中也不可能存在查询字符串限制。您必须在后台代码(处理部分)中完成,或者可能使用服务器重写规则

Disallow: *
Allow: index.ext
如果我没记错的话,第二个子句应该覆盖第一个。

禁止总是优先于允许的报告,因此在
robots.txt
文件中没有简单的方法可以做到这一点


您可以通过在HTML中除了主页之外的每一页中添加
noindex,nofollow
META
标记来实现这一点。

据我所知,并非所有爬虫程序都支持Allow标记。一个可能的解决方案可能是将除主页之外的所有内容都放在另一个文件夹中,并禁止使用该文件夹。

因此,经过一些研究,我发现了一个主要搜索提供商可以接受的解决方案:,&msn(我可以在这里找到验证程序):


诀窍是使用$标记URL的结尾。

支持
$
作为结尾标界的信息。
User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$