Web Crawler_IT技术博客_编程技术问答

Web crawler 如何在没有内容的网站上收集所有链接？

标签： Web Crawler robots.txt

我想得到一个网站链接到的所有URL（在同一个域上），而不用下载像wget这样的内容。有没有办法告诉wget只列出它将下载的链接如果有人能想出一个更好的解决方案，我将使用它作为一个小背景：我试图构建一个robots.txt文件，该文件将排除以p[4-9].html结尾的所有文件，但robots.txt不支持正则表达式。所以我尝试获取所有链接，然后对它们运行正则表达式，然后将结果放入robots.txt。有什么想法吗？我的建议是：在一个（非常）小的shell脚本中结合wget和gawk wikip

Web crawler 什么技术可以用来检测所谓的；“黑洞”；（蜘蛛陷阱）在创建网络爬虫时？

标签： Web Crawler

创建web爬虫时，必须设计某种系统来收集链接并将其添加到队列中。这些链接中的一些（如果不是大多数的话）将是动态的，看起来有所不同，但不会增加任何价值，因为它们是专门为愚弄爬虫而创建的一个例子：我们告诉爬虫程序通过输入初始查找URL来爬网域evil.com 假设我们让它一开始爬过首页，evil.com/index 返回的HTML将包含几个“唯一”链接： evil.com/somePageOne evil.com/somePageTwo evil.com/somePageThree 爬虫程序

Web crawler 从nutch获得链接

标签： Web Crawler nutch

我正在使用Nutch1.3抓取一个网站。我想获得一个已爬网的URL列表，以及来自页面的URL 我使用readdb命令获取已爬网的URL列表 bin/nutch readdb crawl/crawldb -dump file 有没有办法通过读取crawdb或linkdb来查找页面上的URL 在org.apache.nutch.parse.html.HtmlParser中，我看到了outlinks数组，我想知道是否有一种从命令行访问它的快速方法。从命令行，您可以使用with-dump或-get选项

Web crawler 写一个网络爬虫——当谷歌看到#的时候，我如何模仿它呢！在URL中？

标签： Web Crawler google-searchhashbang

我正在写一个网络爬虫，想做谷歌遇到#时做的事情它检索到的页面中的URL。如果URL没有#！谷歌将其添加到最终将获取和索引的页面列表中，但当它看到#时，它会做一些特别的事情！如中所述当Google看到一个包含#的URL时它修改URL，对修改后的URL执行HTTP GET，然后对检索到的页面进行索引，就好像它检索到了具有#的URL一样（而不是它实际检索到的URL）。我试图模仿它所做的转换，但这并没有完全描述引用的页面部分描述了谷歌如何修改URL，并告诉网站作者如何反向转换，以便他们知道原始URL

Web crawler 爬网的html与浏览器中的不同

标签： Web Crawler

我使用WebHarvest获取HTMLs，但我发现我得到的与我浏览器中的略有不同。html中的两个数字被替换为用WebHarvest爬网的html中的破折号 HTMLs的所有其他内容都是相同的。即使我用Java代码替换WebHarvest的http语句来请求HTML，这仍然不起作用我保证浏览器中的URL和web harvest中http请求中的URL相同。我如何才能做到这一点？这个问题很常见，通常与CSS相关的内容存在问题。主要原因是 1.元素不同于web源代码，这是最常见的现象。元素的代码已

Web crawler 如何在Sitecore多站点环境中避免搜索引擎对特定网站的爬行

标签： Web Crawler Sitecore robots.txtmultisitesitecore8.1

我们在sitecore项目中实施了多站点解决方案。我们已将robots.txt放在网站根目录下，以防止在生产服务器上对特定目录进行爬网现在，我们将在的生产服务器上再托管一个网站beta.example.com，但我们希望避免对此子域进行爬网因为它是多站点环境，并且只有一个robots.txt文件，我们如何实现呢。我们如何使这种爬行机制适用于特定的网站我们需要为此编写任何管道机制吗谢谢您可以添加一个自定义处理程序来处理robots.txt，如下所示： <customHandlers&

Web crawler Stormcrawler是否遵循次要JavaScript页面内容加载？

标签： Web Crawler nutchstormcrawler

从我在webmd.com上的搜索结果来看，似乎不是这样，我想这是太多的期望，因为这将是非常复杂的。但我想我还是要再检查一遍那么，如果我有一个页面，在初始页面加载之后使用JavaScript加载其主体，Stormcrawler是否有任何方法可以等待第二内容加载，然后刮取页面我想没有一个爬虫能做到这一点，除了非常高级和复杂的爬虫，比如Google或Bing可能会使用的爬虫——或者甚至他们不会，因为这需要浏览器级的智能和复杂性。想到如何实现这样的行为，就会产生焦虑。StormCrawler有一个将

Web crawler 外部表列具有整数值，但通过Glue crawler以0开头作为字符串

标签： Web Crawler aws-glueamazon-redshift-spectrum

我已经创建了一个爬虫程序来运行一个包含csv文件的S3路径。它为具有整数值的字段创建一个带bigint列的红移外部表，为具有字母数字值的字段创建字符串列当爬虫遇到“002”或“0123”之类的值（即整数值，但以0开头）时，有没有办法强制爬虫将字段定义为字符串注意：我不知道哪些列会事先有这样的值

Web crawler app:/百科全书df.swf-是谁/什么？

标签： Web Crawler Bots Statistics

试图在统计日志上做一些侦探工作。43%的点击来自推荐人应用程序：/encyclopldf.swf 一个典型的日志条目是178.146.205.174---[29/Jan/2011:23:50:37-0800]“GET/filename.pdf HTTP/1.1”200 86571“app:/encyclopedf.swf”“Mozilla/5.0（Windows；U；en-US）AppleWebKit/531.9（KHTML，像Gecko）AdobeAIR/2.5.1” 这一个恰好是google

Web crawler 我可以存储一个带有NOINDEX元标记的页面吗？

标签： Web Crawler robots.txtmeta-tagsnoindex

我正在做一个Webcrawler，现在我正在尝试跟随robots.txt和metatagsNOINDEX和NOFOLLOW NOFOLLOW要求我不要跟随页面中的链接，而是跟随NOINDEX？我知道不需要在搜索中为页面编制索引，但我不会进行任何搜索，只将页面存储在数据库中如果我将NOINDEX标记存储在数据库中，或者这只适用于搜索，我将不尊重该标记。没有特别的理由不存储它。只要你没有索引它并在搜索结果中返回它。除非您将其作为搜索结果返回，否则您不会不尊重NOINDEX的含义

Web crawler NCrawler不'；即使MaxCrawlDepth>；1.

标签： Web Crawler

即使MaxCrawlDepth>1，也不会爬网到第一个url之外。所以如果我把yahoo.com和MaxCrawlDepth=3放进去，它只会抓取该页面，然后停止。我还使用数据包嗅探器验证了这一点，当时它访问的唯一地址是yahoo.com 如何让它抓取页面中的每个链接？（我没有时间检查源代码）NCrawler需要一个完整的URL。尝试将url替换为当我添加HTMLAgilityPack时，会发生这种情况，请检查您是否拥有该url并将其删除

Web crawler 统计数据库在Crawler4j开源代码中做什么？

标签： Web Crawler crawler4j

我正在尝试理解Crawler4j开源网络爬虫。同时我也有一些疑问，如下所示问题：- 统计数据库在计数器类中做什么，请解释以下代码部分 public Counters(Environment env, CrawlConfig config) throws DatabaseException { super(config); this.env = env; this.counterValues = new HashMap<String, Long>();

Web crawler yFactory的GWTP爬网服务为空

标签： Web Crawler gwtpgwt-platform

我正在尝试使用GWTP CrawlerService使我的GWTP应用程序可以被搜索引擎抓取。我按照指示进行设置当使用正确的键和URL参数访问爬网服务时，我在beefactory的第121行得到一个null指针异常，因为yFactory的为null 然而，我看不到任何地方有实例化过yFactory的，所以我不确定它怎么会不为null。我错过了什么这里有一个stacktrace： java.lang.NullPointerException at com.gwtplatform.cra

Web crawler 如何对一些网站进行web爬网

标签： Web Crawler

我正在启动一个新的项目，对网站进行爬网，以便使用web服务在内部检索和存储数据。我查阅了一些信息，发现了一些稀奇古怪的网络爬虫服务我的问题是，最好是在没有经验的情况下创建自己的爬虫程序，还是租用网络爬虫服务我遇到的一个问题是，有些网站在获取任何数据之前需要登录。如果您想用Java创建自己的网络爬虫，您可能需要查看你也可以看一看和编辑：这也行：“许多好的问题都会根据专家经验产生一定程度的意见，但这个问题的答案几乎完全是基于意见，而不是事实、参考资料或特定的专业知识。”假设我没有python

Web crawler 从文章中提取作者

标签： Web Crawler mechanizepyquery

正如标题所说，我一直在抓取这篇文章，只剩下作者了下面是我的代码，使用pyquery编译段落和作者，只有作者返回空白目标地点：类不是作者，rel是；句点选择一个类。您应该过滤“[rel=”author“]”，括号允许您对bas非标准标记进行归档。谢谢！几乎有了它，我想我应该更具体一些，因为我想在没有附加标签/函数的情况下获得名称。当前，它显示从页面源复制的行，然后仅显示名称。我按照您的建议输入了它，然后添加了“for I in range”，这就是结果。这将是pyquery特有的，但是应该有

Web crawler Nutch只在给定域中爬行少数链接

标签： Web Crawler nutch

ubuntu 12.04的Nutch 1.9出现了问题。我正在尝试抓取网站中可用的链接。我已经在seed.txt文件中给出了网站url。除了http.agent.name（新）属性和db.max.outlinks.per.page（-1），我没有对默认配置进行任何更改。我正在使用以下命令爬网爬网URL测试-深度3 爬虫程序应该在3的深度范围内抓取所有可用的链接。但是当我运行下面的linkdb命令时，只有5个链接可用。主页上提供了所有五个链接 nutch readlinkdb test/link

Web crawler 风暴爬虫中递归爬网的优先级划分

标签： Web Crawler nutchstormcrawler

当在万维网上爬行时，我想给我的爬行器一个URL的初始种子列表，并期望我的爬行器在爬行过程中自动从互联网上“发现”新的种子URL 我在Apach Nutch中看到了这样的选项（请参见中的topN参数）。在中也有这样的选项吗？StormCrawler可以处理递归爬网，URL的优先顺序取决于用于存储URL的后端例如，可以使用，请参阅自述文件中的简短教程和，默认情况下，喷口将根据其nextFetchDate（**.sort.field*）对URL进行排序简而言之，-topN参数只指定要放入下一段的U

Web crawler 获取未被Google Bot爬网的元素

标签： Web Crawler user-agentrobots.txt

我有一个样本问题。我有一个url和它的html作为输入，我需要获取爬虫程序不允许作为googlebot用户代理爬网的元素文件Robots.txt没有给出所有未爬网的元素，我在检测这些元素时遇到了问题你知道吗？非常感谢我认为元素指的是指向页面外资源的链接。看看，它有一个用于处理robots文件的API。您需要获取robots页面，在使用crawler commons对其进行解析后，您将能够检查给定用户代理是否允许特定URL 默认情况下，Web爬虫（例如）会这样做

Web crawler 如何编写爬虫程序？

标签： Web Crawler

我曾想过尝试编写一个简单的爬虫程序，它可能会爬网，并为我们的非营利组织的网站和内容生成一个发现列表有没有人想过怎么做？您将爬虫指向何处开始？它是如何发回自己的发现并继续爬行的？它如何知道它找到了什么，等等。使用wget，做一个递归的web吮吸，它会将所有文件转储到硬盘上，然后编写另一个脚本来遍历所有下载的文件并分析它们编辑：或者用curl代替wget，但我不熟悉curl，我不知道它是否会像wget一样进行递归下载。你可以列出一个单词列表，并为在谷歌搜索的每个单词创建一个线程。然后每个线程都会

Web crawler Nutch-topN选择准则是否选择了页面得分。如果设置为10，Nutch是否会在一个页面上排列得分最高的10个URL？这是通过webgraph实现的，还是仅仅是它在页面上遇到的前10个问题？

标签： Web Crawler nutch

是的。TopN考虑页面评分。知道评分在下载的第一个页面上是如何工作的吗？假设它在XYZ.com上爬行并找到了5个链接。由于它还没有任何数据来进行OPIC评分，比如每个链接的INLINK数量，它如何对它们进行排队？

Web crawler 将Nutch爬网中的数据转储到多个warc文件中

标签： Web Crawler nutchwarc

我已经用Nutch1.12抓取了一个网站列表。我可以使用以下方法将爬网数据转储到单独的HTML文件中： ./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir ./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment 并使用以下命令将其转换为单个WARC文件： ./bin/nutch dump -segment crawl/segments/ -o outputD

Web crawler 信息检索-查找术语同义词

标签： Web Crawler information-retrieval

这是一个相当广泛的问题，我并不寻求具体的实现（好吧，如果解决这个问题的方法已经存在的话，那就太棒了）。如果有人能告诉我如何检索请求的信息，那就太好了让我用一个例子来描述这个问题。我有一个大学的名字（例如牛津大学）。我将过滤推特，以便找到提到这所大学的推特。显然，它们中的大多数不会直接包含“牛津大学”一词，而是可能会使用“Oxon”、“Oxf”或“Oxford”之类的词我的问题是如何自动找到一个单词的所有同义词（更准确地说，我只对大学的名字感兴趣）。通常，答案是使用词干分析。问题是你没有使用字

Web crawler 如何在nutch 2.x中基于内链接和外链接启用页面评分？

标签： Web Crawler nutch

Nutch1.x有这个能力，但是我在Nutch2.x中找不到。nutch中是否有任何选项可以启用它，或者我必须在我这边执行它？nutch 2.x将OPIC作为默认计分机制，如果您没有在配置文件中禁用它，您可以在s:s列中看到分数，如果您使用的是hbase。我建议将配置单元与hbase一起用于SQL语法。米奇还有另一个评分插件“scoring.link”，它的工作原理与pageRank算法的工作原理类似。您可以在配置文件中进行设置

Web crawler 风暴爬虫中的重定向处理

标签： Web Crawler stormcrawler

有了SC，我应该能够在不发出大纲链接的情况下跟踪重定向吗？重定向的URL是否应作为“已发现”注入我的后端？这似乎不是我用以下设置进行的小实验得出的结果： crawler.yaml: redirections.allowed: true parser.emitOutlinks: false urlfilters.json: "maxDepth": 2 最后，当一个页面被视为重定向到另一个页面时，它是否会遍历该页面的其余拓扑（我指的是

Web crawler 如何使用stormcrawler从网站抓取特定数据

标签： Web Crawler Apache Storm data-extractionstormcrawler

我正在使用stormcrawler（v1.16）抓取新闻网站，并将数据存储在Elasticsearch（v7.5.0）上。我的爬虫配置文件是。我正在使用kibana进行可视化。我的问题是在抓取新闻网站的时候，我只想要文章内容的URL，但我也要得到广告的URL，网站上的其他标签。我需要做什么和在哪里做更改如果我必须从URL中只获取特定的内容（比如只获取标题或内容），我们如何才能做到这一点编辑：我想在内容索引中添加一个字段。因此，我在src/main/resources/parsefi

Web crawler scrapy中的动态启动URL

标签： Web Crawler Scrapy

我正在使用scrapy在一个站点上抓取多个页面。变量start\u url用于定义要爬网的页面。我首先从第一页开始，因此在文件example\u spider.py 在从第一个页面获得更多信息后，我将确定下一个要爬网的页面，然后相应地分配start\u URL。因此，我必须用对start\u url=[1st page，2nd page，…，Kth page]的更改覆盖上面的示例_spider.py，然后再次运行scrapy crawl 这是最好的方法还是有更好的方法使用scrapy API

Web crawler 制作一个蜘蛛来只下载特定的页面

标签： Web Crawler Scrapy

需要有scrapy和python经验的人的帮助。如何将spider配置为只下载页面正文中包含一些单词的页面？Scrapy提供了一种使用筛选内容的方法，您可以编写自定义管道，使其删除所有不包含您要查找的单词的内容。你可以在这里看到一个例子。你的问题没有意义。如果不下载页面，您如何知道页面是否包含特定单词？

elasticsearch 爬虫&x2B；弹性搜索积分

标签：elasticsearch Web Crawler search-enginenutch

我无法找到，如何抓取网站和索引数据到elasticsearch。我在nutch+solr组合中成功地做到了这一点，由于nutch应该能够从1.8版直接将数据导出到elasticsearch（），所以我再次尝试使用nutch。然而，我没有成功。在尝试调用 $ bin/nutch elasticindex 我得到： Error: Could not find or load main class elasticindex 我不坚持使用nutch。我只需要最简单的方法来抓取网站并将其索引到elas

Web crawler Heritrix内容过滤

标签： Web Crawler heritrix

我需要从几个不同的网站（主要是HTML页面和PDF文档）聚合内容。我目前正在试用Heritrix（3.2.0），看看它是否能满足我的需要虽然文档非常详细，但引擎似乎并不像我预期的那样工作。我已经设置了一些简单的作业，并以多种不同的方式配置了DecideRules，但无论我做什么，我发现Heritrix要么下载了太多的内容，要么什么都没有这是一个我正在尝试做的例子。我将Heritrix指向如下URL…example.com/news/speeches。这是一个网页，它有一个HTML表格，其中包

Web crawler 你知道LTX71机器人吗？它在干什么？是垃圾邮件吗？

标签： Web Crawler Bots

有一个机器人/蜘蛛正在我的网站上快速爬行。useragent是“ltx71-（）”，它有几个IP： 52.3.127.144和 52.3.105.23 网站上写着： LTX71 我们不断扫描互联网以进行安全研究。我们的爬网不是恶意的，它只会记录一个站点的摘要信息页面如果您有其他问题，请联系research@ltx71.com 我想知道研究的目的是什么。我在谷歌上找不到任何关于它的信息。我应该阻止这个机器人吗您可以轻松地从web主机上的.htaccess文件阻止此bot User-age

Web crawler Nutch Crawler没有'；无法检索新闻文章内容

标签： Web Crawler nutch

我试图从链接中抓取新闻文章：- 但我并没有将页面中的文本放到索引（elasticsearch）中的内容字段中爬网的结果是：- { "took": 2, "timed_out": false, "_shards": { "total": 5, "successful": 5, "failed": 0 }, "hits": { "total": 2, "max_score": 0.09492774, "hits": [

Web crawler 有人能推荐蜘蛛吗？

标签： Web Crawler

是否有一个网络蜘蛛可以抓取论坛的内容我的公司不提供互联网连接，所以我想画一个论坛的线程，然后我可以看看公司的内容我已经尝试过WebLech，它可以只绘制静态页面。试试。我用它来镜像整个（或部分）网站供离线使用，效果很好。请参阅以获取介绍。+1我甚至使用wget通过FTP镜像站点作为一种备份

Web crawler 为什么谷歌爬虫会发现几个不在我的页面中的url？

标签： Web Crawler http-status-code-404google-crawlers

我有一个页面，其中包含许多url。此URL从数据库动态生成。当我使用Goggle站长工具检查我的站点时，我发现数据库中的一个url有语法错误，站长工具给了我404（未找到）错误。结果我纠正了那个错误。那天之后，Goggle仍然给我同样的信息（未发现错误）。为什么会发生这种情况？为了解决这个问题，我做了什么？谢谢。请稍等。G将在几天后再次抓取您的页面。在那之后，问题可能会得到解决。我已经等了三个星期了。但是这个错误每天都在重复。我还需要等待吗？作为一个选项，尝试重新提交您的站点地图，并使用

Web crawler 我可以添加https url作为Crawler4j的种子吗

标签： Web Crawler crawler4j

我必须使用crawler4j-4.1.jar及其依赖项在ssl网站上爬行。我可以添加https url作为我的第一个种子吗是的，你可以。Crawler4j还支持ssl认证站点

Web crawler 木偶爬行器大规模爬行

标签： Web Crawler puppeteergoogle-chrome-headless

我们正在编写一个网络爬虫使用木偶。我们编写的傀儡爬虫程序执行并爬网网站URL，对于页面大约为1500-5000的网站没有问题然而，当我们执行网站超过5000，如果它在中间由于一些错误或崩溃，那么它需要重新启动。如果发生错误，如何使基于木偶的网络爬虫从最后一次爬网状态恢复？木偶戏里有内置的功能吗？如何让这个傀儡无头chrome网络在队列系统中爬行？我自己用puppeter.js构建了一个爬行器来爬行Google和Bing，我为此奋斗了很长时间。我强烈建议在每次浏览器崩溃或页面调用挂起时使

Web crawler 在抓取分类广告网站后，如何检查列表是否过期？

标签： Web Crawler

我对构建分类广告的网络爬虫感兴趣。爬网分类广告的问题是，这些项目不断过期。当一个用户在我的网站上搜索时，有没有办法在列表过期时“即时”检查基本上，如果我的页面显示20条记录，如何检查是否过期？有什么方法可以检查“在飞行中”吗？是否隐藏此记录，而不是将其显示给用户？可能是一个.js脚本，检查删除记录（）您可以编写一些东西，定期检查列表（通过cron作业）并查看是否过期如果你正在抓取的页面有某种指示器，可以告诉你它什么时候会过期（“列表在2011年7月8日到期”），你的抓取程序可以对此进行解析

Web crawler 哪种开源爬虫是最好的？

标签： Web Crawler nutch

我正在比较这四个Nutch/Heritrix/OpenPipeLine/apachetika 哪一个最好？各自的优点和缺点是什么？我想有一些可扩展的爬虫，可以爬网的网站列表，并可以修改，如果需要我还没有研究你提到的爬虫程序，但我知道我编写的爬虫程序是可扩展的，可以修改。它还可以用于AJAX和“仅javascript”网站（即使用Google Web Toolkit的网站）名称为forklabs javaxpcom，可在上找到。Nutch是其中最全面的，非常可配置。尝试了100万份文件。值得

Web crawler 如何配置爬虫程序扩展以从tt_新闻中排除隐藏字段？

标签： Web Crawler typo3-6.2.xtt-news

我将此配置用于tt_新闻的爬虫配置： tx_crawler.crawlerCfg.paramSets { items = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:6;] items { baseUrl = http://www.example.com cHash = 1 procInstrFilter = tx_indexedsearch_reindex } } 从而使爬虫

Web crawler 网站分类

标签： Web Crawler Web Scraping classification

我需要搜刮一千个共享相同结构的网站：它们都有一个菜单、一个标题、一些文本和一个评级，很像一个博客。不幸的是，它们的编码也非常不同，有些是手动的，所以我无法重新利用CSS选择器，甚至可能不依赖它们我想知道我如何能自动地对它们进行分类，并保存我剩下的头发。我的第一个猜测是使用lynx或其他文本浏览器来获取一些文本块，并根据它们的大小对它们进行分类你知道更好或更复杂的方法吗谢谢大家! 查看以分解页面关于分类，请看mahout.apache.org。我的建议是将问题分为两个主要部分编写分类部分

Web crawler 在ApacheNutch中仅创建linkdb

标签： Web Crawler nutch

我正在使用ApacheNutch1.7版来抓取互联网。一切正常。然而，我对内链接和外链接感兴趣，因为我所做的只是链接分析。因此，我对内容、解析文本等不感兴趣。我如何指导nutch只构建linkdb？但不是其他的（crawldb或segmentdb），因为我对html内容不感兴趣。是否有在爬网时自动清除爬网数据库和分段数据库的选项）。我正在互联网上进行大规模的爬行，需要非常节省空间中给出了限制爬网内容的详细信息您可以在nutch站点配置中使用以下配置属性 <property>

Web crawler 基于IP地址、主机名和域名的爬网延迟

标签： Web Crawler nutchddos

例如，在爬行stackoverflow的情况下，根据主机名/域名延迟是有意义的（例如，每10分钟向stackoverflow.com发送一个请求）在*.blogspot.com的情况下，延迟基于域名的请求才有意义，因为有数以百万计的主机名以.blogspot.com结尾，而延迟基于域名的请求将使服务器收到数以百万计的请求当爬网范围广泛的网站（网络规模爬网）时，在请求之间施加延迟的最佳实践是什么？我应该根据IP地址、主机名或域名延迟请求吗？最好使用Nutch按IP分区。由于IP分辨率的原因，生

Web crawler 如何找到Nutch爬过的网页数量？

标签： Web Crawler nutch

在Nutch爬网结束时，是否可以找到或确定Nutch实际爬网了多少网页将命令与-stats一起使用，这将为您提供每个状态的细分数据您可以使用readdb bin/nutch readdb crawl/crawldb -stats 示例：bin/nutch readdb crawl/dabfolder/crawldb-stats 输出如下： Statistics for CrawlDb: crawl/dabfolder/crawldb/ TOTAL urls: 563390 shortest

Web crawler 使StormCrawler能够对具有多个喷口的单个域进行爬网

标签： Web Crawler stormcrawler

我正在用StormCrawler和Elasticsearch做一个概念验证，只在一个域中爬行，有几个主机——一个有很多页面。有没有办法告诉stormcrawler不要将一个主机或域的所有URL分组到一个单独的组中我按照Youtube教程进行了设置，并将喷口设置为10个平行度，但据我通过storm UI所知，它只使用了1个平行度。我如何让它将单个域甚至单个主机的URL传播到所有的网络上谢谢！ Jim要对每个主机的url进行分区，您的配置应该具有partition.url.mode:“byHos

Web crawler 从ApacheNutch清除数据

标签： Web Crawler nutch

我刚开始使用ApacheNutch，我一直在遵循一些我已经成功使用的教程。现在我想删除在我玩游戏期间收集的所有数据，有没有办法轻松地从Nutch中清除所有下载的数据？纯粹从Nutch端删除通常位于ScrawlDB目录中的所有数据段会让您回到一个干净的状态。如果您已经将数据索引到Solr/ES/等中，那么您可能还希望删除所有这些数据。最后一步可能取决于您使用的存储引擎

Web crawler 如何从heritrix爬网中排除除链接/大纲链接以外的所有内容？

标签： Web Crawler heritrix

我和Heritrix一起工作，我有点被困在管理它的输出上我正在研究PageRank，我需要Heritrix生成一个文件来应用排名算法。我需要的文件应该只有每个访问页面的链接和大纲链接我想尽量避免后处理。是否可以通过指定应包括哪些内容和不应包括哪些内容来定制Heritrix的输出？我已经尝试过修改cxml文件，但是输出中仍然有很多没有帮助的信息（如内容页）。如果不编写代码，就不可能直接执行所描述的操作。如果您想编写代码，可以编写一个非常简单的处理器或ScriptedProcessor，以您喜欢

Web crawler 恶意网络爬虫检测

标签： Web Crawler

我想知道，是否有可能通过监听网络服务器流量实时检测恶意网络爬虫？如果可能的话，我想知道检测坏爬虫的方法是什么如何区分好的爬虫和恶意的爬虫？对于服务器故障来说，这可能是一个更好的问题吗？好的爬虫是众所周知的爬虫，比如googlebot、msnbot。我想检测伪造的网络爬虫，他们不给任何回报。

Web crawler crawler4j只爬行种子URL

标签： Web Crawler crawler4j

为什么下面的代码构建在crawler4j的基础上，只抓取给定的种子URL，而不开始抓取其他链接 public static void main( String[] args ) { String crawlStorageFolder = "F:\\crawl"; int numberOfCrawlers = 7; CrawlConfig config = new CrawlConfig(); config.setCrawlStorageFolde

Web crawler 在服务器上删除页面后，告诉StormCrawler从ES索引中删除页面

标签： Web Crawler stormcrawler

我有以下情况： StormCrawler将对现有页面进行爬网 StormCrawler将相应的文档添加到Elasticsearch索引中该页面已在服务器上删除 =>爬虫程序通过更新状态索引“检测”页面的删除：文档获取状态“FETCH_ERROR”（在达到“max.FETCH.errors”后，获取状态“ERROR”）问题: Elasticsearch索引仍然保留文档，但由于页面已被删除，因此没有意义查看配置，我还没有找到一种方法告诉StormCrawler从ES索引中删除状态为“错误”

Web crawler 如何在c#（Azure功能）中下载整个网站

标签： Web Crawler httpwebrequest Azure Functions

我正在开发一个爬虫，我需要保存一些证据，证明爬虫成功了我正在寻找一种方法来下载发送URL的所有HTML、CSS和JS，并创建与目标站点相同的文件夹结构我将不得不使用Azure函数来执行爬虫程序其想法是废弃一个网站，下载内容并保存在Azure Blob中我找到了它，但它只显示了如何下载HTML，我需要创建与爬虫看到的完全相同的东西（带有图像、CSS和处理过的JS）我相信所有的绝对路径都会起作用，真正的问题是我将创建文件夹来保存文件的相对路径有人能帮我吗？嗯，我相信这个答案对那些和我经历

Web crawler 使用HTTPS URL索引和爬网数据

标签： Web Crawler google-webmaster-tools

我的网站是一种公共网站（用户无需登录即可查看）+私人网站（用户必须登录才能使用）所以我的问题是，谷歌爬虫如何知道我的网站是私有的（URL带有https）。我还想抓取这些内容，并用HTTPS为我的所有ULR建立索引是否有任何选项支持使用谷歌网站管理员工具的HTTPS URL。如果有一个支持这些URL的选项，那么我想知道Google crawler如何在不登录的情况下访问我的web内容。所以大家提前分享你的想法和感谢。谷歌能够抓取和理解HTTPS URL，就像它能够抓取和理解HTTP URL一样