Javascript 如何在爬行时绕过robots.txt_Javascript_Jquery

Javascript 如何在爬行时绕过robots.txt

javascript jquery

Javascript 如何在爬行时绕过robots.txt,javascript,jquery,Javascript,Jquery,有人能告诉我在爬行时是否有办法忽略或绕过robots.txt。有没有办法修改脚本，使其忽略robots.txt并继续爬行还是有其他方法可以达到同样的效果 User-agent: * Disallow: / User-agent: Googlebot Disallow: 如果您正在编写爬虫程序，那么您可以完全控制它。你可以让它表现得很好，也可以让它表现得不好如果你不想让你的爬虫程序尊重robots.txt，那么就编写它，这样它就不会。您可能正在使用一个自动尊重robots.txt的库，如果

有人能告诉我在爬行时是否有办法忽略或绕过robots.txt。有没有办法修改脚本，使其忽略robots.txt并继续爬行

还是有其他方法可以达到同样的效果

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

如果您正在编写爬虫程序，那么您可以完全控制它。你可以让它表现得很好，也可以让它表现得不好

如果你不想让你的爬虫程序尊重robots.txt，那么就编写它，这样它就不会。您可能正在使用一个自动尊重robots.txt的库，如果是这样，则必须禁用该库，该库通常是您在调用它时传递给该库的一个选项

无法使用客户端JavaScript使正在读取嵌入JS的页面的爬虫程序停止使用robots.txt

如果您正在编写爬虫程序，那么您可以完全控制它。你可以让它表现得很好，也可以让它表现得不好

无法使用客户端JavaScript使正在读取嵌入JS的页面的爬虫程序停止使用robots.txt

如果您正在用mechanize Python编写Crawler，并且与robot.txt有接口然后使用以下命令：

import mechanize
br = mechanize.Browser()
br.set_handle_robots(False)

如果您正在用mechanize Python编写Crawler，并且有一个与robot.txt的接口然后使用以下命令：

import mechanize
br = mechanize.Browser()
br.set_handle_robots(False)

robots.txt是一个建议，而不是要求。如果你想忽略它，你就忽略它。也许你在跨源请求方面有问题，而不是robots.txt？robots.txt是一个建议，而不是一个要求。如果你想忽略它，你就忽略它。也许你在跨源请求方面有问题，不使用robots.txt？这真的很有帮助。这真的很有帮助，但它不会造成403禁止访问的风险吗？@revolutionformonica-如果你编写了一个行为糟糕的机器人，那么网站可能会采用启发式方法阻止你。当你忽视礼貌的“禁止进入”通知时，这是一种风险。但这难道不会造成403禁止访问的风险吗？@revolutionormonica-如果你编写了一个行为恶劣的机器人，那么网站可能会采用启发式方法阻止你。如果你忽视了礼貌的“禁止入内”通知，你就会冒这个险。