Seo 如何允许爬虫程序仅使用robots.txt访问index.php?

Seo 如何允许爬虫程序仅使用robots.txt访问index.php?,seo,web-crawler,robots.txt,Seo,Web Crawler,Robots.txt,如果我只允许爬虫程序访问index.php,这行吗 User-agent: * Disallow: / Allow: /index.php 您可以使用来结帐。我永远不会在robots文件中放入任何秘密目录,因为我猜下面这样的一行对某些蜘蛛来说是非常有用的 Disallow: /secret 尝试交换不允许/允许的顺序: User-agent: * Allow: /index.php Disallow: / User-agent: * Allow: /index.php Disallow:

如果我只允许爬虫程序访问index.php,这行吗

User-agent: *
Disallow: /
Allow: /index.php
您可以使用来结帐。我永远不会在robots文件中放入任何秘密目录,因为我猜下面这样的一行对某些蜘蛛来说是非常有用的

Disallow: /secret

尝试交换不允许/允许的顺序:

User-agent: *
Allow: /index.php
Disallow: /
User-agent: *

Allow: /index.php
Disallow: /
请参阅维基百科中的以下信息:

“然而,为了与所有人兼容 机器人,如果你想允许单身 文件中的文件,否则是不允许的 目录,您需要放置允许 首先是指令,然后是 例如,不允许:


不过,我并不期望它能始终如一地工作

是的,它会工作的。这是测试结果

但是,请记住,使用此配置,除非使用完全限定的路径访问页面,否则不会对您的网站主页进行爬网。 换句话说,
http://www.example.org/
http://www.example.org/index.php
是允许的

如果你希望你的主页可以访问,这里有一个更好的文件版本

User-agent: *
Disallow: /
Allow: /index.php
Allow: /$

我很好奇你为什么要这么做……你不想让爬虫为你的网站建立更多的索引吗?你能解释一下你的答案吗?
$
意思是“行尾”,所以它与
whateverdoma匹配。在
中,没有任何进一步的URL字符,你能解释一下/$工作的原因吗,或者它的作用是什么?可以找到
/$
的解释
User-agent: *

Allow: /index.php
Disallow: /
User-agent: *
Allow: /$
Allow: /index.php
Allow: /sitemap.xml
Allow: /robots.txt
Disallow: /

Sitemap: http://www.your-site-name.com/sitemap.xml