Seo 如何允许爬虫程序仅使用robots.txt访问index.php？_Seo_Web Crawler_Robots.txt

Seo 如何允许爬虫程序仅使用robots.txt访问index.php？

seo web-crawler

Seo 如何允许爬虫程序仅使用robots.txt访问index.php？,seo,web-crawler,robots.txt,Seo,Web Crawler,Robots.txt,如果我只允许爬虫程序访问index.php，这行吗 User-agent: * Disallow: / Allow: /index.php 您可以使用来结帐。我永远不会在robots文件中放入任何秘密目录，因为我猜下面这样的一行对某些蜘蛛来说是非常有用的 Disallow: /secret 尝试交换不允许/允许的顺序： User-agent: * Allow: /index.php Disallow: / User-agent: * Allow: /index.php Disallow:

如果我只允许爬虫程序访问index.php，这行吗

User-agent: *
Disallow: /
Allow: /index.php

您可以使用来结帐。我永远不会在robots文件中放入任何秘密目录，因为我猜下面这样的一行对某些蜘蛛来说是非常有用的

Disallow: /secret

尝试交换不允许/允许的顺序：

User-agent: *
Allow: /index.php
Disallow: /

User-agent: *

Allow: /index.php
Disallow: /

请参阅维基百科中的以下信息：

“然而，为了与所有人兼容机器人，如果你想允许单身文件中的文件，否则是不允许的目录，您需要放置允许首先是指令，然后是例如，不允许：

不过，我并不期望它能始终如一地工作

是的，它会工作的。这是测试结果

但是，请记住，使用此配置，除非使用完全限定的路径访问页面，否则不会对您的网站主页进行爬网。换句话说，

http://www.example.org/http://www.example.org/index.php
是允许的
如果你希望你的主页可以访问，这里有一个更好的文件版本
User-agent: *
Disallow: /
Allow: /index.php
Allow: /$

我很好奇你为什么要这么做……你不想让爬虫为你的网站建立更多的索引吗？你能解释一下你的答案吗？$
意思是“行尾”，所以它与whateverdoma匹配。在
中，没有任何进一步的URL字符，你能解释一下/$工作的原因吗，或者它的作用是什么？可以找到/$的解释
User-agent: *

Allow: /index.php
Disallow: /

User-agent: *
Allow: /$
Allow: /index.php
Allow: /sitemap.xml
Allow: /robots.txt
Disallow: /

Sitemap: http://www.your-site-name.com/sitemap.xml