Html Robot.txt仅允许一个.php和一个文件夹

Html Robot.txt仅允许一个.php和一个文件夹,html,Html,我在一家公司工作,他们的网络服务器乱七八糟。有几个文件我无法删除,因为以后需要访问它们。我不想在搜索引擎中显示我刚刚找到的关于robot.txt的内容,非常迷人 我只希望它允许我的index.php和我的工作/文件夹中的所有内容 这是正确的吗 User-agent: * Allow: /$ Allow: /work Allow: /http://mysite.com/index.php Disallow: / 排除除一个文件以外的所有文件 这目前有点尴尬,因为没有“允许”字段。这个 简单的方法

我在一家公司工作,他们的网络服务器乱七八糟。有几个文件我无法删除,因为以后需要访问它们。我不想在搜索引擎中显示我刚刚找到的关于robot.txt的内容,非常迷人

我只希望它允许我的index.php和我的工作/文件夹中的所有内容

这是正确的吗

User-agent: *
Allow: /$
Allow: /work
Allow: /http://mysite.com/index.php
Disallow: /
排除除一个文件以外的所有文件

这目前有点尴尬,因为没有“允许”字段。这个 简单的方法是将所有不允许的文件放在一个单独的文件夹中 目录,说“stuff”,并将一个文件保留在上面的级别 目录:

User-agent: *
Disallow: /~joe/stuff/
或者,您可以明确禁止所有不允许的页面:

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

如果您只想允许
index.php
工作
文件夹(以及工作的子页面),请从开始。如果模式中存在匹配项,爬虫将验证每行。如果没有,则传递到下一个。在这种情况下,
Disallow://
是最新的,将阻止所有其他不匹配条件的爬网

User-agent: *
Allow: /index.php
Allow: /work
Disallow: /

您正在禁止整个网站购买添加“Disallow:/”,因此上述所有允许语句均无效。我无法四处移动文件,公司排序有旧的需要访问的旧链接,除了
Allow
是没有通用支持的非标准扩展。它得到了雅虎、谷歌和微软必应的支持