Seo 如何允许爬虫程序仅使用robots.txt访问index.php?
如果我只允许爬虫程序访问index.php,这行吗Seo 如何允许爬虫程序仅使用robots.txt访问index.php?,seo,web-crawler,robots.txt,Seo,Web Crawler,Robots.txt,如果我只允许爬虫程序访问index.php,这行吗 User-agent: * Disallow: / Allow: /index.php 您可以使用来结帐。我永远不会在robots文件中放入任何秘密目录,因为我猜下面这样的一行对某些蜘蛛来说是非常有用的 Disallow: /secret 尝试交换不允许/允许的顺序: User-agent: * Allow: /index.php Disallow: / User-agent: * Allow: /index.php Disallow:
User-agent: *
Disallow: /
Allow: /index.php
您可以使用来结帐。我永远不会在robots文件中放入任何秘密目录,因为我猜下面这样的一行对某些蜘蛛来说是非常有用的
Disallow: /secret
尝试交换不允许/允许的顺序:
User-agent: *
Allow: /index.php
Disallow: /
User-agent: *
Allow: /index.php
Disallow: /
请参阅维基百科中的以下信息:
“然而,为了与所有人兼容
机器人,如果你想允许单身
文件中的文件,否则是不允许的
目录,您需要放置允许
首先是指令,然后是
例如,不允许:
不过,我并不期望它能始终如一地工作是的,它会工作的。这是测试结果 但是,请记住,使用此配置,除非使用完全限定的路径访问页面,否则不会对您的网站主页进行爬网。 换句话说,
http://www.example.org/http://www.example.org/index.php
是允许的
如果你希望你的主页可以访问,这里有一个更好的文件版本
User-agent: *
Disallow: /
Allow: /index.php
Allow: /$
我很好奇你为什么要这么做……你不想让爬虫为你的网站建立更多的索引吗?你能解释一下你的答案吗?$
意思是“行尾”,所以它与whateverdoma匹配。在
中,没有任何进一步的URL字符,你能解释一下/$工作的原因吗,或者它的作用是什么?可以找到/$
的解释
User-agent: *
Allow: /index.php
Disallow: /
User-agent: *
Allow: /$
Allow: /index.php
Allow: /sitemap.xml
Allow: /robots.txt
Disallow: /
Sitemap: http://www.your-site-name.com/sitemap.xml