Web crawler 如何为此链接编写Robots.txt wordpress以阻止他们访问；page.php？lougout“；_Web Crawler_Robots.txt

Web crawler 如何为此链接编写Robots.txt wordpress以阻止他们访问；page.php？lougout“；

web-crawler

Web crawler 如何为此链接编写Robots.txt wordpress以阻止他们访问；page.php？lougout“；,web-crawler,robots.txt,Web Crawler,Robots.txt,嗨，我有一个word press网站，我做了一些调整。不知怎的，goggle机器人显示了很多页面爬行错误。下面提到的错误错误页面链接示例如下： URL错误 page3/wp-login.php?action=logout page2/wp-login.php?action=logout page1z/wp-login.php?action=logout ... to n pages 我使用了这个robot.txt代码 Disallow: /logout/ 但它现在起

嗨，我有一个word press网站，我做了一些调整。不知怎的，goggle机器人显示了很多页面爬行错误。下面提到的错误

错误页面链接示例如下：

URL错误

  page3/wp-login.php?action=logout
   page2/wp-login.php?action=logout
   page1z/wp-login.php?action=logout
   ... to n pages

我使用了这个robot.txt代码

Disallow: /logout/

但它现在起作用了

您可能需要在开头添加

用户代理：

。这就是我的robots.txt的样子。谷歌不会为我的网站阅读它们

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-admin/
Disallow: /trackback/
Disallow: /xmlrpc.php
Disallow: /feed/
Sitemap: http://example.com/sitemap.xml

但看看你的错误日志，它看起来可能不是谷歌或任何好的爬虫。坏的爬虫，不关心

robots.txt

。您可以做的是将一些页面添加到robots.txt中作为不允许，并记录爬虫（如蜜罐）的信息（IP块、用户代理和标题），然后您可以像这样禁止它们

order allow,deny
deny from xx.xxx.xx.xx
deny from yy.yy.yyy.yy
deny from zzz.zz.z.zz
allow from all

或者一个很好的重定向到一个不存在的站点

#bad bots
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^BadBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^EvilBotr [OR]
RewriteCond %{HTTP_USER_AGENT} ^FakeBot
RewriteRule ^(.*)$ http://byecrawler.com/ #non-existent site

当然它不起作用，因为请求的URL与该路径一点也不匹配…