Web crawler 运行爬行器（webcrawler）查找特定内容_Web Crawler

Web crawler 运行爬行器（webcrawler）查找特定内容

web-crawler

Web crawler 运行爬行器（webcrawler）查找特定内容,web-crawler,Web Crawler,首先，我不知道这是否是这个问题的正确地点。如果没有，我很抱歉：）我在考虑写一个蜘蛛来爬网，寻找特定的嵌入文件然而，我想知道ISP是否允许运行spider，因为它会以很快的速度发出很多请求或者我应该在请求中加入一些延迟我已经阅读了我的ISP的合同，但是我找不到任何关于爬行的具体信息。你可以看看。它有一些有用的想法。您应该注意您希望爬网的站点上的ROBOTS.txt。您应该在请求之间留出延迟，以免造成拒绝服务的情况。没有任何东西可以禁止您爬行。它与正常的用户交互没有区别。若你们打开一个有很多

首先，我不知道这是否是这个问题的正确地点。如果没有，我很抱歉：）

我在考虑写一个蜘蛛来爬网，寻找特定的嵌入文件

然而，我想知道ISP是否允许运行spider，因为它会以很快的速度发出很多请求

或者我应该在请求中加入一些延迟

我已经阅读了我的ISP的合同，但是我找不到任何关于爬行的具体信息。

你可以看看。它有一些有用的想法。您应该注意您希望爬网的站点上的ROBOTS.txt。您应该在请求之间留出延迟，以免造成拒绝服务的情况。

没有任何东西可以禁止您爬行。它与正常的用户交互没有区别。若你们打开一个有很多图片的页面，浏览器会立刻发出很多请求

您可以有传输限制-只需注意您下载了多少数据

<>你必须考虑的是，爬行很多页面可以被认为是DOS攻击或被页面操作符禁止。遵守他们的规则。如果他们要求每天从一台计算机执行的请求不超过N个，请尊重它。做一些延迟，不要阻止进入现场

从中查看wget是否下载文件供脱机使用。我只是想索引它，而不是下载它。我的发现正确吗？@PeeHaa你没有说什么是“特定的嵌入文件”。如果它们是通过内容识别的，那么您必须下载它们（我假设您不能在服务器上运行代码）。您不必下载整个文件，这取决于服务器的配置。REST/HTTP允许部分下载。不管它们是什么，我只想在web上找到并索引它们。你说的“索引”是什么意思？如果您只能在文件名/URL上对它们进行索引，那么就这样做。（我希望工作组会允许这样做）。但是请记住，如果您依赖文件中的链接来查找下一个文件（爬虫就是这么做的），那么您必须下载这些文件。没有魔法。如果不读取文件，则无法从文件中找到链接。我不知道你反对什么。担心音量吗？你不应该写爬虫。如果您担心存储文件，请不要。但是对于HTML文件，您必须阅读这些文件并在其中找到正确的位置