Web Crawler_IT技术博客_编程技术问答

Web crawler 抓取受Google登录保护的网页

标签： Web Crawler

我想抓取一个受谷歌登录保护的网站。例如，只有在我使用Google帐户登录后才能看到的上的私有组中的线程。如何使代码自动化，使其使用我的帐户进行身份验证，并从站点抓取HTML？另外，它是如何检测登录过期并重新登录的？我最终使用phantomJs进行爬行。向我们展示您迄今为止所做的尝试，一些代码、示例等等。告诉我们您遇到了什么困难或有什么具体问题。推荐阅读：到目前为止，我发现的例子有：，和。但是第一个链接没有太多的自动化功能，而且看起来很粗糙，而第二个链接使用的是谷歌API，它似乎与自动登录的网络爬

Web crawler UnicodeDecodeError:&x27；utf-8'；编解码器可以'；t解码位置10208中的字节0xa0：无效的开始字节

标签： Web Crawler urllib

导入urllib.request response=urllib.request.urlopen（“”）打印（response.read（）.decode（'utf-8'））也许对于谷歌来说，我可能不使用utf-8，但是，如何从其网站获取脚本？回溯（最近一次调用）：文件“D:/pythoncode/wikiSpider/venv/project10.py”，第4行，打印（response.read（）.decode（'utf-8'））UnicodeDecodeError:“utf-8”编解码

Web crawler 爬网网站时超过请求限制

标签： Web Crawler distributed-computing

我正在开发一个网络爬虫，它为不想被索引的站点编制索引我的第一次尝试：我编写了一个c#crawler，它可以遍历每个页面并下载它们。这导致我的IP在10分钟内被他们的服务器阻塞我将其移动到AmazonEC2，并编写了一个分布式python脚本，该脚本运行大约50个实例。这只是停留在刚刚超过他们的门槛踢我。这也需要每月1900美元我回到了我最初的想法，把它放在了TOR网络的一个简化版本后面。这起作用了，但速度很慢我没有主意了。我怎样才能越过他们一再阻拦我的请求我说的“块”，他们实际上给

Web crawler 通过对网站进行分割来确定网站的结构

标签： Web Crawler sitemap

当我重构一个网站时，我喜欢计算出现有的结构，以确保在将其移植到新的导航/菜单系统时不会遗漏任何内容我经常通过手动浏览站点或剥离站点地图列表来完成这项工作。网站地图的缺点是，出版物部分可能会列出数千个链接，然后需要手动删除这些链接是否有任何自动工具可以在一个页面上生成网站的可视结构？网站可视化工具可以创建网站的可视结构。单击项目->新建，设置爬行器设置，然后单击开始按钮运行爬网完成后，单击“可视化站点地图”选项卡的“绘制”按钮。您可以通过单击页面突出显示出站链接。使用“保存”按钮将视觉结构

Web crawler 爬网器4J在爬网后继续阻塞

标签： Web Crawler blockingcrawler4j

我使用Crawler4j只是从已爬网的页面获取HTML。它成功地为我的测试站点存储了大约50页的检索到的HTML。它使用我实现的shoudVisit方法，并使用我实现的visit方法。这两个都运行没有任何问题。文件的编写也没有问题。但在访问和存储所有页面后，它不会停止阻止： System.out.println("Starting Crawl"); controller.start(ExperimentCrawler.class, numberOfCrawlers); System.out.pr

Web crawler 使用import.io选择多个下拉菜单

标签： Web Crawler import.io

我正试图用它来爬过一个电子商务网站，收集各种定价信息。然而，每种产品的价格都是由用户设置了大量下拉列表的内容决定的链接至网站：我需要爬虫程序遍历所有不同的选项，并收集与此产品相关的所有可能的定价组合。我最初尝试使用Chrome的web scraper插件，但发现该扩展不支持一个页面内的多个单击操作我认为这在import.io中是可能的，但我可能错了。是否有人知道如何收集这些数据，即使是使用import.io的替代方案谢谢…不幸的是，使用import.io工具无法在所有不同的选项中爬行。对

Web crawler 如何使用robots.txt处理不同子域的web爬网-允许abc.sample.com但不允许cde.sample.com

标签： Web Crawler subdomainrobots.txt

目前，我的网站有两个子域名，比如abc.sample.com和cde.sample.com。现在，我们希望避免对特定子域abc.sample.com进行爬网，但对于cde.sample.com，需要支持爬网我们有两个网站相同的代码集，所以robots.txt也将是相同的在探索robot.txt时，我们似乎可以避免/允许对同一站点的不同页面进行爬网，但我需要基于子域对我的站点进行爬网尽量说得更具体些。你尝试了什么？@DavidGarcíaBodego-我更新了我的问题。简而言之，我们希望避免

Web crawler 如何使用噩梦ejs（或casperjs/phantomjs）实现表单的自动提交和重定向

标签： Web Crawler Phantomjs nightmare

使用梦魇ejs，我想了解一些重定向和自动表单提交，这是由页面脚本调用的。我想看最后一页例如，http://myexample/像这样： <html><body> <form action="http://somewhere/" method="post">  </form> <script src="//ajax.googleapis.com/ajax/libs/jquery/1.11

Web crawler Crawler4j-nosuch方法getOutgoingUrls（）

标签： Web Crawler crawler4j

我正在尝试设置craweler4j。我正在Netbeans中从源代码构建它。我使用的是crawler4j的3.5版本，调用的类与网站上曾经给出的类相同——为了方便在下面复制- public class MyCrawler extends WebCrawler { private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|js|bmp|gif|jpe?g"

Web crawler 爬虫/搜索引擎如何穿越网络？

标签： Web Crawler google-crawlers

商业搜索引擎的爬虫如何穿越网络： “识别种子页并通过连接的链接查找其他页” 或 “为网站wwwroot目录下的每个文件编制索引。” 在以后选项的情况下，搜索引擎甚至应该为任何其他页面都不引用的内容编制索引？必须存在引用。可能是允许使用常规HTML href进行索引 sitemaps.xml中的链接允许爬虫程序使用robots.txt中的链接网站管理员在其搜索引擎后台提供的参考资料等等它可能是任何其他链接。因此商业搜索引擎不会通过wget-m对网站目录进行爬网？@David实际上不会

Web crawler 如何使用MyCrawler.java Controller.java文件运行crawler4j.jar

标签： Web Crawler crawler4j

我是爬虫新手，我想运行我的第一个爬虫程序。我有三份档案 Crawler4j.jar Mycrawler.java Controller.java 当我在终端输入javac-cp crawler4j-3.1.jar MyCrawler.java Controller.java时，我得到以下错误： " 我哪里出错了？谢谢您应该编写一个控制器和一个爬虫程序以下是Controller.java文件： import edu.uci.ics.crawler4j.crawler.CrawlConfig;

Web crawler 风暴爬虫&x27；s原型拓扑不获取大纲链接

标签： Web Crawler Apache Storm stormcrawler

根据我的理解，基本示例应该能够抓取页面我遵循了上面的示例，但爬虫程序似乎只获取了几页，然后就什么也不做了我想爬网并运行爬网，但在日志中看到只有第一个页面被抓取，其他一些页面被发现但没有抓取： 8010 [Thread-34-parse-executor[5 5]] INFO c.d.s.b.JSoupParserBolt - Parsing : starting http://books.toscrape.com/ 8214 [Thread-34-parse-executor[5 5]]

Web crawler 在StormCrawler中不跟踪url.path有什么影响？

标签： Web Crawler stormcrawler

我们正在elasticsearch中使用并存储我们的状态索引。这个索引越来越大（将近30亿个文档！），因此碎片也越来越大，需要备份等等我正在考虑删除文档中的url.path元数据数组元素。我可以使用元数据.track.path禁用它如果我不再为此编制索引并删除我拥有的内容，会有什么影响？如果您对跟踪特定URL的查找方式不感兴趣，那么可以通过将metadata.track.path设置为false来节省空间（和一点时间）。您可以直接这样做，任何新文档都不会有相应的字段不确定你所说的“删除我所

Web crawler 指向HdfsBolt的URL内容

标签： Web Crawler stormcrawler

在ES拓扑中，我想在ElasticSearch中索引url，并将（url、[标题、内容]）的元组转发到Hdfs存储。我发现ApacheStorm有一个合适的Hdfs，它看起来像一个直接的实现。我想知道在ES爬行拓扑中的哪里可以找到这个元组。你能指出哪个螺栓上有这些数据吗？你不仅需要文本内容，还需要元数据，因为这是存储标题的地方。查看默认流上的发射内容，并将HDFS螺栓连接到其输出这类似于我们使用扩展HDFS螺栓所做的操作，只是WARC螺栓不需要解析步骤中的任何内容，并且可以直接连接到获取程序的

Web crawler 最佳网站蜘蛛？

标签： Web Crawler

我正在将一堆站点移动到一个新的服务器上，为了确保我不会错过任何东西，我希望能够为程序提供一个站点列表，并让它下载其中的每个页面/图像。有什么软件可以做到这一点吗？我也可以用它来下载一些wordpress网站的副本，这样我就可以上传静态文件（我的一些WP网站从来没有更新过，所以几乎不值得建立新的dbs等）你可能会得到很多意见。这里有一个：wget是你的工具在unix/linux系统上，它可能已经安装。对于windows系统，请从下载它是一个命令行工具，具有一系列命令行选项，用于控制它对目标网站

Web crawler 网络爬虫从哪里获取要爬网的站点列表？

标签： Web Crawler

我知道搜索引擎向用户提供搜索结果所采取的所有基本步骤，但有一件事我不明白，那就是对要爬网的站点列表进行物理编译。像googlebot这样的程序是如何获得他们将要搜索的网站的实际列表的？这可能会因爬虫程序而异，但最有可能的起点是域名注册。像google这样的搜索引擎通常通过从其他网站发现新内容来获取新内容例如，如果您有一个已经爬网的网站，并且链接到一个新网站。当谷歌访问你的网站并看到新网站时，它也开始为新网站编制索引另一方面，你也可以通过ping Google来为新网站编制索引，这样它不仅是被

Web crawler 如何防止同一url返回不同的响应？

标签： Web Crawler Scrapy scrapy-spider

现在我正在尝试使用scrapy来抓取一个网站我发现，给定相同的url，请求的响应可能会不同。这似乎是该网站的两个版本。我还使用了相同的用户代理是否有一些方法可以让反应保持一致？或者我只能分析每个响应的版本，然后使用不同的XPath提取项目 scrapy shell中的response.headers如下所示：这完全取决于网站，而不是网站。在这种情况下，可以检查响应.标题，特别是上次修改的标题，该标题应返回上次修改的日期信息。谢谢您的建议。现在我有点困惑。“response.heade

Web crawler GnuTLS recv错误（-12）：已收到TLS致命警报

标签： Web Crawler pycurlgnutls

我在多台服务器上使用pycurl进行一些web爬行，并在日志中看到有一些项目返回了标题所示的GnuTLS错误。我手动检查了输入参数，当我在本地运行脚本时，结果很好我最初的想法是，我可能因为多次点击而被网站屏蔽，但当我研究这个错误时，我发现没有人提到被屏蔽的地方我不知道这个错误是什么，目前我唯一的解决方案是在它发生时实现类似于指数等待重试的方法。但是，如果有人能提供有关此特定错误的一些知识，我将非常感谢您的输入。我发现GnuTLS recv错误只是一个基于网络活动的错误，原因是站点维护、升级、

Web crawler storm crawler-技术堆栈和Apache Nutch

标签： Web Crawler Apache Storm nutchstormcrawler

我想抓取一个特定的论坛近实时和转储到HDFS的数据，如果不是Hbase 我听说ApacheNutch可以解决这个问题，但遗憾的是，它所需要的技术堆栈非常陈旧。我不想把hadoop从2.6降到更早的版本，把Elasticsearch降到1.7/1.4，所以我把注意力转移到了storm crawler上由于我使用的是Hadoop 2.6、Elasticsearch 2.0和Hbase 1.1.3，有人能告诉我风暴爬虫0.9是否可以与它们一起使用吗？由于您有一个特殊的要求，需要以近乎实时的方式对论坛

Web crawler Nutch获取失败，http代码为417

标签： Web Crawler nutch

ApacheNutchFetch步骤从url数据库获取数据，但仅针对一个站点，所有featch请求都会失败，并显示消息 fetch of https://www.example.com/ failed with: Http code=417, 我试图在网上查找可能的原因或配置设置，但我没有发现任何有用的东西提前谢谢

elasticsearch Stormcrawler未为elasticsearch获取/索引页面

标签：elasticsearch Web Crawler Apache Storm stormcrawler

我正在使用带有Elasticsearch的Stormcrawler，在对网页进行爬网时，Kibana中没有显示带有抓取状态的页面仍然在控制台上，网页似乎被抓取和解析 48239 [Thread-26-fetcher-executor[3 3]] INFO c.d.s.b.FetcherBolt - [Fetcher #3] Threads : 0 queues : 1 in_queues : 1 48341 [FetcherThread #7] INFO c.d.s.b.F

Web crawler 拒绝访问，但允许机器人（如Google）访问sitemap.xml

标签： Web Crawler robot

有没有一种方法，你可以只允许机器人，如谷歌，雅虎，或其他搜索引擎机器人到我的网站地图位于。这可能不允许用户直接访问而只允许机器人吗？基本上不允许，但您可以使用用户代理字符串进行操作，并禁止访问（假设Apache） SetEnvIf用户代理GodBot GoAway=1 命令允许，拒绝通融拒绝来自env=！门卫但正如它所说（我在那里找到了语法）警告: 用户代理的访问控制是一个重要的功能不可靠的技术，因为用户代理标头可以设置为任何事都可以，只要你一时兴起最终用户 sitemap.

Web crawler 我应该如何处理爬虫中的规范URL

标签： Web Crawler canonical-link

我应该如何作为爬虫处理页面中的规范url 例如，如果我在头上有这个标签： <link rel="canonical" href="http://example.com/wordpress/"> 我是否应该跳过基于此url的每个url并跳过它们？谢谢。在将文档索引到搜索引擎中时，规范标记非常有用，可以减少重复或近似变体的数量，这些重复或近似变体共享相同的标记值。例如，这就是如何使用它您确实可以跳过索引具有不同canonical值的URL，但由于这是您在获取内容后发现的内容，因此如果

Web crawler 我可以让Discovery或任何其他IBM服务为我的聊天机器人爬网吗？

标签： Web Crawler watsonwatson-discoverywatson-assistant

我想将Watson Discovery连接到聊天机器人，但事实证明，我们的文档更新非常频繁，静态下载和上传并不能解决这一问题。因此，我想知道是否有一种方法可以让Discovery在web上爬行，或者是否有任何其他IBM服务提供此功能。这是可能的，但需要一些修补工作才能做到，建议将此作为起点最简单的方法是使用某种形式的数据库，定期将文档接收到其中，然后让discovery连接到该数据库

Web crawler 用Java开发自动网络爬虫

标签： Web Crawler

你好，我想爬网多个电子商务网站，并获得所有可用的产品被爬网，并在我的网站上显示。我已经使用Java开发了crawler，但是我们必须通过提供URL和HTML标记详细信息来手动抓取网站，通过连接URL和解析URL来抓取网站，并在相应的HTML标记中获取产品。我正在使用JSoup来实现这一点示例doc.getElementsByTagName（“爬网”）；将产品放入名为“爬网”的标签中但我想完全自动化爬行。如果我在我的网站上搜索产品，那么相应的产品应该自动从电子商务网站上爬网。如果我想抓取佳能相

Web crawler 从scrapinghub中删除spider

标签： Web Crawler Scrapy scrapy-spiderscrapinghub

我是scrapinghub的新用户。我已经在谷歌上搜索过了，也读过scrapinghub的文档，但是我找不到任何关于从项目中移除蜘蛛的信息。可能吗，怎么可能？我不想替换spider，我想将其从scrapinghub spider列表中删除/删除。您只需从项目中删除spider，然后通过shub deploy或scrapyd deploy再次部署项目，谢谢：）当我想添加新的spider时，只需将其粘贴到pc的项目文件夹中，然后再次部署项目，对吗？它将再次部署项目中的所有spider，或者只添加

Web crawler 如何查找爬虫用户代理字符串？

标签： Web Crawler user-agent

我目前运行一个目录网站，我博客和做营销，但我支付了一个自由职业者代码的网站我现在有其他网站要求我的网站的爬虫/机器人的“用户代理字符串”（类似于此处显示的信息：），以便他们可以链接到我的网站，并需要知道如何找到这个或我需要做什么非常感谢您的帮助，谢谢！ Megan我删除了之前的答案，并更新了问题，以更好地反映您的问题。我以为你是在问你的浏览器用户代理，而不是你的爬虫/机器人用户代理。谢谢你，贾斯汀！

Web crawler 对整个网络进行爬网的指南？

标签： Web Crawler

我有这样的想法，想知道是否有可能在一台专用服务器（如Core2Duo、8gig ram、750gb磁盘100mbps）上抓取整个web（就像大男孩一样！）我遇到过一篇这样做的论文……但我记不起这篇论文的标题了。这就像使用某种统计模型在一台专用服务器上爬行整个web一样无论如何，想象一下从大约10000个种子URL开始，然后进行彻底的爬网可能吗我需要在网上爬行，但仅限于一个专用服务器。我如何做到这一点，是否已经有了开源解决方案例如，请查看此实时搜索引擎。结果非常好，而且是最新更新的……

Web crawler 新站点的爬虫/蜘蛛检测

标签： Web Crawler

我有使用c#和vb.net的良好开发经验，但我需要一些指导。我想开发类似蜘蛛和爬虫的搜索引擎，但我不知道如何：如何检测网络中的新网站？像谷歌一样在网站启动时检测并抓取它如何检测添加到任何网站的新页面？我可以检测和解析网站的所有页面，但这是一个耗时的过程？如何检测新添加的页面如何检测修改的页面以下链接可能有用查找新页面的两种主要方法：站点地图（谷歌这个词可以找到更多），它也可以指示页面何时更新注意到您正在爬网的另一个页面上指向新站点/页面的链接对于您已经知道的页面，可以使用“If

Web crawler GoogleBot（和恶意网站）请求无效目录

标签： Web Crawler googlebot

GoogleBot正在从一个从未存在过的无效目录请求有效文件。例如： /energy/ 附加到有效路径和文件以生成： /energy/css/example.css 奇怪的是，$\u服务器['HTTP\u REFERER']还显示了无效目录中的有效页面（在本例中为http://www.example.com是我的网站）： /docs/anthro/是一个有效的目录，但是payment.php永远不会在这个目录中，当然/energy/也永远不会有效更奇怪的是，恶意网站也从/energy/请求

Web crawler 谷歌如何更新他们的搜索索引

标签： Web Crawler google-crawlers

如果我问了一个关于SO的问题，我很快就可以在Google上搜索我的问题标题，并获得我的SO问题链接作为第一个结果。此问题链接必须已由其机器人爬网。为什么他们更新搜索索引的速度如此之快？他们有很多钱，可以购买和使用数千台计算机。他们经常去受欢迎的地方。热门网站可以自动发送链接/页面-请参见这样做是否会将每个问题的url提交给谷歌？问吧，但这可能是真的。这在SEO/SEM中是很自然的。更多的URL意味着更多的访问者。更多的访问者意味着更多的点击广告。更多的点击广告意味着更多的钱。

Web crawler nutch生成器是否对初始链接使用爬网DB？

标签： Web Crawler nutch

我知道初始种子是由平面文件提供的。然而，这些URL被注入到哪里？是爬虫吗？如果是这样的话，爬虫程序获取的新链接是否存储回crawlDB？当系统关闭时，crawlDB会在下次nutch启动时刷新吗事实上，我希望nutch在系统关闭的情况下恢复爬行。是的，注入会将种子的平面列表变成爬行数据库中的条目。在更新步骤中，解析步骤发现的新链接将与现有的crawldb合并。Nutch不会自行恢复爬网，如果系统关闭，则必须重新启动Nutch脚本，并且要采取的操作将取决于它停止时的位置如果您需要一个连续的爬虫

Web crawler 使用Apify SDK时有没有办法指定最大爬网深度？

标签： Web Crawler apify

我正在做一个项目，我正在评估Scrapy和Apify。大多数代码都以node.js为中心，因此javascript解决方案会很好。此外，我喜欢在Apify中使用木偶演员。这就是说，我的用例需要对许多网站进行相当浅（例如，深度大约为4）的爬网。这在Scrapy中很容易配置，但我不知道如何在Apify中进行配置。有没有办法在新的Apify API中指定最大深度？看起来这是他们的传统爬虫程序中的一个参数，但我在新的API中没有找到它。您可以在中找到“最大爬虫深度”选项。此工具替代了传统的phantom

Web crawler Web爬行与链接评估

标签： Web Crawler

我知道cURL将下载一个完整的文件我真正想要的是获取页面上的所有链接，并根据我的特定标准、链接位置等进行评估，然后决定是否应该获取该页面并对其进行解析以获取信息更具体地说，我希望找到与娱乐活动相关的链接，解析数据并将其存储在我的MySQL数据库中，以便为我所在地区的活动填充网站有人会想到如何实现这一目标吗 -Jason我建议您将工作建立在现有的web爬虫/索引器解决方案上，而不是自己在代码中或使用诸如CURL之类的工具来实现它例如，请参见。我建议您基于现有的web爬虫/索引器解决方案，而

Web crawler 最佳网络爬虫-用于需要的内容提取

标签： Web Crawler

结构化网络爬虫解决方案，用于获取特定网站（如易趣）的内容？非常好。而且它非常支持Javascript。30位数字对于从网站的特定部分提取非常特定的数据具有极好的性能。它不是开源的，但根据您的大小和用途，它们有不同的型号

Web crawler 禁用robots.txt签入nutch

标签： Web Crawler nutch

我想禁用robots.txt签入并从网站抓取所有内容。禁用表示在获取或解析任何网站之前，跳过检查robot.txt。这可能吗？据我所知，我们无法禁用robots.txt。尽管这个问题很老，但我个人认为它仍然与答案相关是的，可以禁用robots.txt流（但需要更改和构建Nutch源代码）注意：nutch没有提供任何特定的配置来在获取实际URL之前禁用robots.txt获取。因为你所说的听起来像是URL/域名滥用，你想访问它，而不管网站试图通过robots.txt对其资源说些什么。这是

Web crawler 如何防止Bing不定期地用流量淹没我的网站？

标签： Web Crawler robots.txtbingbingbot

Bingbot每天都会在我的网站上狠狠地打上几个小时，剩下的时间都会非常轻松我要么想平滑它的爬行，降低它的速率限制，要么干脆阻止它。它并没有真正的访客有没有一种方法可以平滑它的爬行，或者限制它的速率？您可以使用HTACCESS禁止他的IP order allow,deny deny from 192.168.44.201 deny from 224.39.163.12 deny from 172.16.7.92 allow from all 您可以在这里找到更多信息：他们说，他们支持在ro

Web crawler 如何从IIPImage服务器对DeepZoom图像进行web爬网？

标签： Web Crawler deepzoomiipimage

如何获取IIPImage服务器上托管的DeepZoom图像的所有磁贴和元数据 IIPImage支持IIP协议（没有很好的文档）、MS DeepZoom和Zoomify+1：如果这是可能的话，我很着迷。以前从未想过web抓取DeepZoom网站。我希望您有足够的带宽和可用存储：）请看下图：，最后一个参数是裁剪/缩放。找到图案，就可以下载整个图像。我自己没有时间去尝试，但可以是Donether's，它以Zoomify格式刮瓷砖并将它们缝合在一起。否则，您可以查看任何大型图像查看器（例如）的源代码并对

Web crawler 在本地模式下运行StormCrawler或安装Apache Storm？

标签： Web Crawler Apache Storm stormcrawler

因此，我正试图找出如何安装和安装带有ES和Kibana的Storm/Stormcrawler，如前所述我从来没有在我的本地机器上安装过Storm，因为我以前和Nutch一起工作过，而且我从来没有在本地安装过Hadoop。。。我想这可能和暴风雪一样（也许不是？）我想现在就开始用风暴爬虫而不是Nutch爬行如果我只是下载一个版本并将/bin添加到我的路径中，那么我只能与远程集群通话似乎我需要根据设置一个开发环境，以使我能够随着时间的推移开发不同的拓扑，然后在准备部署新拓扑时，从本地机器与远程

Web crawler 针对特定语言内容的Apache Nutch排序算法

标签： Web Crawler nutchnutch2

我已经用Hadoop/Hbase生态系统配置了Nutch 2.3.1，以抓取乌尔都语内容。对于语言检测，我已经定制了fetcher并在那个点上查找语言。若文档并没有足够的乌尔都语（字节），那个么我会故意将其状态设置为gone，以停止使用空内容扩展此边缘。我还必须找到新的乌尔都语域名我仍然面临着为获取选择URL的问题。随着时间的推移，inlinks中的数据越来越多，它包含了很多不是乌尔都语的URL。Nutch正在选择（生成器）大约90%没有乌尔都语内容的URL。由于这个原因，我的资源被浪费了，因

Web crawler 如何抓取数十亿页？

标签： Web Crawler

可以在一台服务器上抓取数十亿页吗？hmm。。如果你可以每秒“爬行”1页，那么你每天可以总共爬行86400页（完成10亿页需要11574.074天，根据每秒页面速度计算所需时间）。。需要耐心。。当然还有存储空间大规模爬行（10亿页）是一个难题。以下是一些问题：网络带宽。假设每个页面都是10Kb，那么您所说的总共是10Kb 需要获取10 TB的数据网络延迟/服务器速度慢/拥塞意味着您无法实现与网络连接的理论带宽类似的效果。多线程你的爬虫只能帮这么多我假设您需要存储从数十亿页中提取的信息

Web crawler 调查结果；“全部”；国域

标签： Web Crawler tld

我正在寻找一种方法来查找以给定tld结尾的“所有”站点。关于如何实现这一点，我有几个想法，但我不确定实现这一点的最佳/最有效的方法是什么。我知道无处链接的页面是蜘蛛无法找到的，所以在这个例子中，我不关心孤立的页面。我想要做的是，我想要一个TLD作为我程序的输入，我想要一个站点列表作为输出。例如： # <program> .de - spiegel.de - deutsche-bank.de ... - bild.de #.de -明镜 -德意志银行 ... -图片报那么，达到

Web crawler 同一项目中不能有两个spider？

标签： Web Crawler Scrapy

我能够生成第一个蜘蛛，好吗 Thu Feb 27 - 01:59 PM > scrapy genspider confluenceChildPages confluence Created spider 'confluenceChildPages' using template 'crawl' in module: dirbot.spiders.confluenceChildPages 但当我尝试生成另一个spider时，我得到了以下结果： Thu Feb 27 - 01:59 PM

Web crawler 在爬网产品详细信息页面时动态分配列？

标签： Web Crawler import.io

我对import.io和stack overflow一无所知，请善待我我试图抓取一家出售珠宝的在线商店的产品详细信息页面，并在页面上找到此类功能列表：功能性别男人技术风格石英材料不锈钢等等是否可以训练爬虫动态提取粗体文本作为列名，而非粗体文本作为列值？ i、 e.“性别”栏的值为“男性”，等等。假设在其他产品详细信息页面上，功能可能不以“性别”开头谢谢你的帮助我还没有尝试过，但我认为这些方法会奏效：通过选择所有粗体文本对一列进行训练，并使用XPath对另一列进行相应值的

Web crawler Scrapy：如何忽略所有Javascript、JQuery。。。刮的时候

标签： Web Crawler Scrapy

我以为我有一个解决方案，但当然有些网站有不同的结构，它没有工作在那里。我需要知道如何去除所有Javascript、JQuery和任何其他可能存在于网站源代码中的代码，而不是纯文本。我在MySpider.py和items.py上尝试了这个解决方案（）。我不知道为什么它不能与删除带有内容的标签一起工作，但事实并非如此。当前的工作文件如下所示： MySpider.py items.py 我知道这不符合我的要求（删除所有Javascript-、JQuery-、…代码），但这是我必须采用的当前情况。因

Web crawler 如何在sparql中自动递增变量？

标签： Web Crawler Sparql semantic-websparqlwrapper

我想抓取100页wikipedia，所以我想每次将wikiPageID增加1。我怎么做 PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> SELECT * WHERE { ?saket dbo:wikiPageID 57570. ?saket foaf:isPrimaryTopicOf ?wikilink. OPTIONAL { ?saket dbp:birthPlace ?bir

Web crawler Nutch抓取超时

标签： Web Crawler nutch

我正在尝试使用nutch-1.12对某些站点进行爬网，但对于种子列表中的某些站点，抓取无法正常工作： http://www.nature.com/ (1) https://www.theguardian.com/international (2) http://www.geomar.de (3) 正如您在下面的日志中所看到的（2）和（3）抓取时工作正常（1）导致超时，而链接本身在浏览器中工作正常。由于我不想大幅增加等待时间和尝试次数，我想知道是否有其他方法来确定为什么会生成此超时以及如何修复

Web crawler 基于Jena库的Java链接数据网络爬虫

标签： Web Crawler Rdf semantic-weblinked-data

我必须实现一个访问Web上链接数据的Web Cralwer。我已经为此构建了一个简单的功能。对此，我有三个疑问：我应该使用哪些种子URI。以RDF格式提供数据并遵循Tim Berners Lee的网站？？一般来说，你所说的基于轮的网络爬虫方法是什么意思？我阅读了关于一般网络爬虫的文章，发现应该遵循基于轮的方法。我只能解析可以返回RDF/XML数据的网页。抓取链接数据就足够了吗。有两个选项，例如，使用中找到的所有URI作为起点，或者可以通过检索中列出的所有资源。对不起，我不知道。不，R

Web crawler 关于利用互联网收集信息

标签： Web Crawler google-search-api

现在，我有一个有趣的情况。。。我的目标是拥有一个软件，它可以接受一个人的全名、出生日期和其他一些凭证（这些凭证是有争议的），并从互联网上尽可能多地提取关于他的信息现在我做了一些研究，发现通过使用谷歌的搜索API和像Scrapy这样的网络爬虫，我可以在一定程度上实现这个目标。。。但是简单地在谷歌上用双引号搜索人名并不总是能得到正确的结果这里我想到两个问题。。。如何提高准确性，第二，我是否在重新发明轮子（因为有些网站有能力找到人？如果是这样的话，那么是否已经有开源代码（或任何可用的代码）可以执行

Web crawler 如何抓取网站的所有页面

标签： Web Crawler

我正在开发一个网络爬虫。我想得到所有的网页链接，然后抓取所有的网页，我用下面的代码 <?php set_time_limit (0); function crawl_robot($url, $depth = 5){ $seen = array(); if(($depth == 0) or (in_array($url, $seen))){ return; } $seen[] = $url; $ch = curl_init(); curl_setopt($ch, CU