Javascript 如何在爬行时绕过robots.txt

Javascript 如何在爬行时绕过robots.txt,javascript,jquery,Javascript,Jquery,有人能告诉我在爬行时是否有办法忽略或绕过robots.txt。有没有办法修改脚本,使其忽略robots.txt并继续爬行 还是有其他方法可以达到同样的效果 User-agent: * Disallow: / User-agent: Googlebot Disallow: 如果您正在编写爬虫程序,那么您可以完全控制它。你可以让它表现得很好,也可以让它表现得不好 如果你不想让你的爬虫程序尊重robots.txt,那么就编写它,这样它就不会。您可能正在使用一个自动尊重robots.txt的库,如果

有人能告诉我在爬行时是否有办法忽略或绕过robots.txt。有没有办法修改脚本,使其忽略robots.txt并继续爬行

还是有其他方法可以达到同样的效果

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

如果您正在编写爬虫程序,那么您可以完全控制它。你可以让它表现得很好,也可以让它表现得不好

如果你不想让你的爬虫程序尊重robots.txt,那么就编写它,这样它就不会。您可能正在使用一个自动尊重robots.txt的库,如果是这样,则必须禁用该库,该库通常是您在调用它时传递给该库的一个选项


无法使用客户端JavaScript使正在读取嵌入JS的页面的爬虫程序停止使用robots.txt

如果您正在编写爬虫程序,那么您可以完全控制它。你可以让它表现得很好,也可以让它表现得不好

如果你不想让你的爬虫程序尊重robots.txt,那么就编写它,这样它就不会。您可能正在使用一个自动尊重robots.txt的库,如果是这样,则必须禁用该库,该库通常是您在调用它时传递给该库的一个选项


无法使用客户端JavaScript使正在读取嵌入JS的页面的爬虫程序停止使用robots.txt

如果您正在用mechanize Python编写Crawler,并且与robot.txt有接口 然后使用以下命令:

import mechanize
br = mechanize.Browser()
br.set_handle_robots(False)

如果您正在用mechanize Python编写Crawler,并且有一个与robot.txt的接口 然后使用以下命令:

import mechanize
br = mechanize.Browser()
br.set_handle_robots(False)

robots.txt是一个建议,而不是要求。如果你想忽略它,你就忽略它。也许你在跨源请求方面有问题,而不是robots.txt?robots.txt是一个建议,而不是一个要求。如果你想忽略它,你就忽略它。也许你在跨源请求方面有问题,不使用robots.txt?这真的很有帮助。这真的很有帮助,但它不会造成403禁止访问的风险吗?@revolutionformonica-如果你编写了一个行为糟糕的机器人,那么网站可能会采用启发式方法阻止你。当你忽视礼貌的“禁止进入”通知时,这是一种风险。但这难道不会造成403禁止访问的风险吗?@revolutionormonica-如果你编写了一个行为恶劣的机器人,那么网站可能会采用启发式方法阻止你。如果你忽视了礼貌的“禁止入内”通知,你就会冒这个险。