Web crawler 运行爬行器(webcrawler)查找特定内容

Web crawler 运行爬行器(webcrawler)查找特定内容,web-crawler,Web Crawler,首先,我不知道这是否是这个问题的正确地点。如果没有,我很抱歉:) 我在考虑写一个蜘蛛来爬网,寻找特定的嵌入文件 然而,我想知道ISP是否允许运行spider,因为它会以很快的速度发出很多请求 或者我应该在请求中加入一些延迟 我已经阅读了我的ISP的合同,但是我找不到任何关于爬行的具体信息。你可以看看。它有一些有用的想法。您应该注意您希望爬网的站点上的ROBOTS.txt。您应该在请求之间留出延迟,以免造成拒绝服务的情况。没有任何东西可以禁止您爬行。它与正常的用户交互没有区别。若你们打开一个有很多

首先,我不知道这是否是这个问题的正确地点。如果没有,我很抱歉:)

我在考虑写一个蜘蛛来爬网,寻找特定的嵌入文件

然而,我想知道ISP是否允许运行spider,因为它会以很快的速度发出很多请求

或者我应该在请求中加入一些延迟


我已经阅读了我的ISP的合同,但是我找不到任何关于爬行的具体信息。

你可以看看。它有一些有用的想法。您应该注意您希望爬网的站点上的ROBOTS.txt。您应该在请求之间留出延迟,以免造成拒绝服务的情况。

没有任何东西可以禁止您爬行。它与正常的用户交互没有区别。若你们打开一个有很多图片的页面,浏览器会立刻发出很多请求

您可以有传输限制-只需注意您下载了多少数据


<>你必须考虑的是,爬行很多页面可以被认为是DOS攻击或被页面操作符禁止。遵守他们的规则。如果他们要求每天从一台计算机执行的请求不超过N个,请尊重它。做一些延迟,不要阻止进入现场

从中查看wget是否下载文件供脱机使用。我只是想索引它,而不是下载它。我的发现正确吗?@PeeHaa你没有说什么是“特定的嵌入文件”。如果它们是通过内容识别的,那么您必须下载它们(我假设您不能在服务器上运行代码)。您不必下载整个文件,这取决于服务器的配置。REST/HTTP允许部分下载。不管它们是什么,我只想在web上找到并索引它们。你说的“索引”是什么意思?如果您只能在文件名/URL上对它们进行索引,那么就这样做。(我希望工作组会允许这样做)。但是请记住,如果您依赖文件中的链接来查找下一个文件(爬虫就是这么做的),那么您必须下载这些文件。没有魔法。如果不读取文件,则无法从文件中找到链接。我不知道你反对什么。担心音量吗?你不应该写爬虫。如果您担心存储文件,请不要。但是对于HTML文件,您必须阅读这些文件并在其中找到正确的位置