Web crawler 如何在没有内容的网站上收集所有链接?

我想得到一个网站链接到的所有URL(在同一个域上),而不用下载像wget这样的内容。有没有办法告诉wget只列出它将下载的链接 如果有人能想出一个更好的解决方案,我将使用它作为一个小背景:我试图构建一个robots.txt文件,该文件将排除以p[4-9].html结尾的所有文件,但robots.txt不支持正则表达式。所以我尝试获取所有链接,然后对它们运行正则表达式,然后将结果放入robots.txt。有什么想法吗?我的建议是:在一个(非常)小的shell脚本中结合wget和gawk wikip

Web crawler 什么技术可以用来检测所谓的;“黑洞”;(蜘蛛陷阱)在创建网络爬虫时?

创建web爬虫时,必须设计某种系统来收集链接并将其添加到队列中。这些链接中的一些(如果不是大多数的话)将是动态的,看起来有所不同,但不会增加任何价值,因为它们是专门为愚弄爬虫而创建的 一个例子: 我们告诉爬虫程序通过输入初始查找URL来爬网域evil.com 假设我们让它一开始爬过首页,evil.com/index 返回的HTML将包含几个“唯一”链接: evil.com/somePageOne evil.com/somePageTwo evil.com/somePageThree 爬虫程序

Web crawler 从nutch获得链接

我正在使用Nutch1.3抓取一个网站。我想获得一个已爬网的URL列表,以及来自页面的URL 我使用readdb命令获取已爬网的URL列表 bin/nutch readdb crawl/crawldb -dump file 有没有办法通过读取crawdb或linkdb来查找页面上的URL 在org.apache.nutch.parse.html.HtmlParser中,我看到了outlinks数组,我想知道是否有一种从命令行访问它的快速方法。从命令行,您可以使用with-dump或-get选项

Web crawler 写一个网络爬虫——当谷歌看到#的时候,我如何模仿它呢!在URL中?

我正在写一个网络爬虫,想做谷歌遇到#时做的事情它检索到的页面中的URL。如果URL没有#!谷歌将其添加到最终将获取和索引的页面列表中,但当它看到#时,它会做一些特别的事情!如中所述 当Google看到一个包含#的URL时它修改URL,对修改后的URL执行HTTP GET,然后对检索到的页面进行索引,就好像它检索到了具有#的URL一样(而不是它实际检索到的URL)。我试图模仿它所做的转换,但这并没有完全描述 引用的页面部分描述了谷歌如何修改URL,并告诉网站作者如何反向转换,以便他们知道原始URL

Web crawler 爬网的html与浏览器中的不同

我使用WebHarvest获取HTMLs,但我发现我得到的与我浏览器中的略有不同。html中的两个数字被替换为用WebHarvest爬网的html中的破折号 HTMLs的所有其他内容都是相同的。即使我用Java代码替换WebHarvest的http语句来请求HTML,这仍然不起作用 我保证浏览器中的URL和web harvest中http请求中的URL相同。我如何才能做到这一点?这个问题很常见,通常与CSS相关的内容存在问题。主要原因是 1.元素不同于web源代码,这是最常见的现象。元素的代码已

Web crawler 如何在Sitecore多站点环境中避免搜索引擎对特定网站的爬行

我们在sitecore项目中实施了多站点解决方案。我们已将robots.txt放在网站根目录下,以防止在生产服务器上对特定目录进行爬网 现在,我们将在的生产服务器上再托管一个网站beta.example.com,但我们希望避免对此子域进行爬网 因为它是多站点环境,并且只有一个robots.txt文件,我们如何实现呢。我们如何使这种爬行机制适用于特定的网站 我们需要为此编写任何管道机制吗 谢谢您可以添加一个自定义处理程序来处理robots.txt,如下所示: <customHandlers&

Web crawler Stormcrawler是否遵循次要JavaScript页面内容加载?

从我在webmd.com上的搜索结果来看,似乎不是这样,我想这是太多的期望,因为这将是非常复杂的。但我想我还是要再检查一遍 那么,如果我有一个页面,在初始页面加载之后使用JavaScript加载其主体,Stormcrawler是否有任何方法可以等待第二内容加载,然后刮取页面 我想没有一个爬虫能做到这一点,除了非常高级和复杂的爬虫,比如Google或Bing可能会使用的爬虫——或者甚至他们不会,因为这需要浏览器级的智能和复杂性。想到如何实现这样的行为,就会产生焦虑。StormCrawler有一个将

Web crawler 外部表列具有整数值,但通过Glue crawler以0开头作为字符串

我已经创建了一个爬虫程序来运行一个包含csv文件的S3路径。它为具有整数值的字段创建一个带bigint列的红移外部表,为具有字母数字值的字段创建字符串列 当爬虫遇到“002”或“0123”之类的值(即整数值,但以0开头)时,有没有办法强制爬虫将字段定义为字符串 注意:我不知道哪些列会事先有这样的值

Web crawler app:/百科全书df.swf-是谁/什么?

试图在统计日志上做一些侦探工作。43%的点击来自推荐人应用程序:/encyclopldf.swf 一个典型的日志条目是178.146.205.174---[29/Jan/2011:23:50:37-0800]“GET/filename.pdf HTTP/1.1”200 86571“app:/encyclopedf.swf”“Mozilla/5.0(Windows;U;en-US)AppleWebKit/531.9(KHTML,像Gecko)AdobeAIR/2.5.1” 这一个恰好是google

Web crawler 我可以存储一个带有NOINDEX元标记的页面吗?

我正在做一个Webcrawler,现在我正在尝试跟随robots.txt和metatagsNOINDEX和NOFOLLOW NOFOLLOW要求我不要跟随页面中的链接,而是跟随NOINDEX? 我知道不需要在搜索中为页面编制索引,但我不会进行任何搜索,只将页面存储在数据库中 如果我将NOINDEX标记存储在数据库中,或者这只适用于搜索,我将不尊重该标记。没有特别的理由不存储它。只要你没有索引它并在搜索结果中返回它。除非您将其作为搜索结果返回,否则您不会不尊重NOINDEX的含义

Web crawler NCrawler不';即使MaxCrawlDepth>;1.

即使MaxCrawlDepth>1,也不会爬网到第一个url之外。所以如果我把yahoo.com和MaxCrawlDepth=3放进去,它只会抓取该页面,然后停止。我还使用数据包嗅探器验证了这一点,当时它访问的唯一地址是yahoo.com 如何让它抓取页面中的每个链接?(我没有时间检查源代码)NCrawler需要一个完整的URL。尝试将url替换为当我添加HTMLAgilityPack时,会发生这种情况,请检查您是否拥有该url并将其删除

Web crawler 统计数据库在Crawler4j开源代码中做什么?

我正在尝试理解Crawler4j开源网络爬虫。同时我也有一些疑问,如下所示 问题:- 统计数据库在计数器类中做什么,请解释以下代码部分 public Counters(Environment env, CrawlConfig config) throws DatabaseException { super(config); this.env = env; this.counterValues = new HashMap<String, Long>();

Web crawler yFactory的GWTP爬网服务为空

我正在尝试使用GWTP CrawlerService使我的GWTP应用程序可以被搜索引擎抓取。我按照指示进行设置 当使用正确的键和URL参数访问爬网服务时,我在beefactory的第121行得到一个null指针异常,因为yFactory的为null 然而,我看不到任何地方有实例化过yFactory的,所以我不确定它怎么会不为null。我错过了什么 这里有一个stacktrace: java.lang.NullPointerException at com.gwtplatform.cra

Web crawler 如何对一些网站进行web爬网

我正在启动一个新的项目,对网站进行爬网,以便使用web服务在内部检索和存储数据。我查阅了一些信息,发现了一些稀奇古怪的网络爬虫服务 我的问题是,最好是在没有经验的情况下创建自己的爬虫程序,还是租用网络爬虫服务 我遇到的一个问题是,有些网站在获取任何数据之前需要登录。如果您想用Java创建自己的网络爬虫,您可能需要查看 你也可以看一看和 编辑:这也行:“许多好的问题都会根据专家经验产生一定程度的意见,但这个问题的答案几乎完全是基于意见,而不是事实、参考资料或特定的专业知识。”假设我没有python

Web crawler 从文章中提取作者

正如标题所说,我一直在抓取这篇文章,只剩下作者了 下面是我的代码,使用pyquery编译段落和作者,只有作者返回空白 目标地点: 类不是作者,rel是;句点选择一个类。您应该过滤“[rel=”author“]”,括号允许您对bas非标准标记进行归档。谢谢!几乎有了它,我想我应该更具体一些,因为我想在没有附加标签/函数的情况下获得名称。当前,它显示从页面源复制的行,然后仅显示名称。我按照您的建议输入了它,然后添加了“for I in range”,这就是结果。这将是pyquery特有的,但是应该有

Web crawler Nutch只在给定域中爬行少数链接

ubuntu 12.04的Nutch 1.9出现了问题。我正在尝试抓取网站中可用的链接。我已经在seed.txt文件中给出了网站url。除了http.agent.name(新)属性和db.max.outlinks.per.page(-1),我没有对默认配置进行任何更改。我正在使用以下命令爬网 爬网URL测试-深度3 爬虫程序应该在3的深度范围内抓取所有可用的链接。但是当我运行下面的linkdb命令时,只有5个链接可用。主页上提供了所有五个链接 nutch readlinkdb test/link

Web crawler 风暴爬虫中递归爬网的优先级划分

当在万维网上爬行时,我想给我的爬行器一个URL的初始种子列表,并期望我的爬行器在爬行过程中自动从互联网上“发现”新的种子URL 我在Apach Nutch中看到了这样的选项(请参见中的topN参数)。在中也有这样的选项吗?StormCrawler可以处理递归爬网,URL的优先顺序取决于用于存储URL的后端 例如,可以使用,请参阅自述文件中的简短教程和,默认情况下,喷口将根据其nextFetchDate(**.sort.field*)对URL进行排序 简而言之,-topN参数只指定要放入下一段的U

Web crawler 获取未被Google Bot爬网的元素

我有一个样本问题。我有一个url和它的html作为输入,我需要获取爬虫程序不允许作为googlebot用户代理爬网的元素 文件Robots.txt没有给出所有未爬网的元素,我在检测这些元素时遇到了问题 你知道吗?非常感谢我认为元素指的是指向页面外资源的链接。看看,它有一个用于处理robots文件的API。您需要获取robots页面,在使用crawler commons对其进行解析后,您将能够检查给定用户代理是否允许特定URL 默认情况下,Web爬虫(例如)会这样做

Web crawler 如何编写爬虫程序?

我曾想过尝试编写一个简单的爬虫程序,它可能会爬网,并为我们的非营利组织的网站和内容生成一个发现列表 有没有人想过怎么做?您将爬虫指向何处开始?它是如何发回自己的发现并继续爬行的?它如何知道它找到了什么,等等。使用wget,做一个递归的web吮吸,它会将所有文件转储到硬盘上,然后编写另一个脚本来遍历所有下载的文件并分析它们 编辑:或者用curl代替wget,但我不熟悉curl,我不知道它是否会像wget一样进行递归下载。你可以列出一个单词列表,并为在谷歌搜索的每个单词创建一个线程。然后每个线程都会

Web crawler Nutch-topN选择准则 是否选择了页面得分。如果设置为10,Nutch是否会在一个页面上排列得分最高的10个URL?这是通过webgraph实现的,还是仅仅是它在页面上遇到的前10个问题?

是的。TopN考虑页面评分。知道评分在下载的第一个页面上是如何工作的吗?假设它在XYZ.com上爬行并找到了5个链接。由于它还没有任何数据来进行OPIC评分,比如每个链接的INLINK数量,它如何对它们进行排队?

Web crawler 将Nutch爬网中的数据转储到多个warc文件中

我已经用Nutch1.12抓取了一个网站列表。我可以使用以下方法将爬网数据转储到单独的HTML文件中: ./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir ./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment 并使用以下命令将其转换为单个WARC文件: ./bin/nutch dump -segment crawl/segments/ -o outputD

Web crawler 信息检索-查找术语同义词

这是一个相当广泛的问题,我并不寻求具体的实现(好吧,如果解决这个问题的方法已经存在的话,那就太棒了)。如果有人能告诉我如何检索请求的信息,那就太好了 让我用一个例子来描述这个问题。我有一个大学的名字(例如牛津大学)。我将过滤推特,以便找到提到这所大学的推特。显然,它们中的大多数不会直接包含“牛津大学”一词,而是可能会使用“Oxon”、“Oxf”或“Oxford”之类的词 我的问题是如何自动找到一个单词的所有同义词(更准确地说,我只对大学的名字感兴趣)。通常,答案是使用词干分析。问题是你没有使用字

Web crawler 如何在nutch 2.x中基于内链接和外链接启用页面评分?

Nutch1.x有这个能力,但是我在Nutch2.x中找不到。nutch中是否有任何选项可以启用它,或者我必须在我这边执行它?nutch 2.x将OPIC作为默认计分机制,如果您没有在配置文件中禁用它,您可以在s:s列中看到分数,如果您使用的是hbase。我建议将配置单元与hbase一起用于SQL语法。米奇还有另一个评分插件“scoring.link”,它的工作原理与pageRank算法的工作原理类似。您可以在配置文件中进行设置

Web crawler 风暴爬虫中的重定向处理

有了SC,我应该能够在不发出大纲链接的情况下跟踪重定向吗?重定向的URL是否应作为“已发现”注入我的后端?这似乎不是我用以下设置进行的小实验得出的结果: crawler.yaml: redirections.allowed: true parser.emitOutlinks: false urlfilters.json: "maxDepth": 2 最后,当一个页面被视为重定向到另一个页面时,它是否会遍历该页面的其余拓扑(我指的是

Web crawler 如何使用stormcrawler从网站抓取特定数据

我正在使用stormcrawler(v1.16)抓取新闻网站,并将数据存储在Elasticsearch(v7.5.0)上。我的爬虫配置文件是。我正在使用kibana进行可视化。我的问题是 在抓取新闻网站的时候,我只想要文章内容的URL,但我也要得到广告的URL,网站上的其他标签。我需要做什么和在哪里做更改 如果我必须从URL中只获取特定的内容(比如只获取标题或内容),我们如何才能做到这一点 编辑: 我想在内容索引中添加一个字段。因此,我在src/main/resources/parsefi

Web crawler scrapy中的动态启动URL

我正在使用scrapy在一个站点上抓取多个页面。 变量start\u url用于定义要爬网的页面。 我首先从第一页开始,因此在文件example\u spider.py 在从第一个页面获得更多信息后,我将确定下一个要爬网的页面,然后相应地分配start\u URL。因此,我必须用对start\u url=[1st page,2nd page,…,Kth page]的更改覆盖上面的示例_spider.py,然后再次运行scrapy crawl 这是最好的方法还是有更好的方法使用scrapy API

Web crawler 制作一个蜘蛛来只下载特定的页面

需要有scrapy和python经验的人的帮助。如何将spider配置为只下载页面正文中包含一些单词的页面?Scrapy提供了一种使用筛选内容的方法,您可以编写自定义管道,使其删除所有不包含您要查找的单词的内容。你可以在这里看到一个例子。你的问题没有意义。如果不下载页面,您如何知道页面是否包含特定单词?

elasticsearch 爬虫&x2B;弹性搜索积分

我无法找到,如何抓取网站和索引数据到elasticsearch。我在nutch+solr组合中成功地做到了这一点,由于nutch应该能够从1.8版直接将数据导出到elasticsearch(),所以我再次尝试使用nutch。然而,我没有成功。在尝试调用 $ bin/nutch elasticindex 我得到: Error: Could not find or load main class elasticindex 我不坚持使用nutch。我只需要最简单的方法来抓取网站并将其索引到elas

Web crawler Heritrix内容过滤

我需要从几个不同的网站(主要是HTML页面和PDF文档)聚合内容。我目前正在试用Heritrix(3.2.0),看看它是否能满足我的需要 虽然文档非常详细,但引擎似乎并不像我预期的那样工作。我已经设置了一些简单的作业,并以多种不同的方式配置了DecideRules,但无论我做什么,我发现Heritrix要么下载了太多的内容,要么什么都没有 这是一个我正在尝试做的例子。我将Heritrix指向如下URL…example.com/news/speeches。这是一个网页,它有一个HTML表格,其中包

Web crawler 你知道LTX71机器人吗?它在干什么?是垃圾邮件吗?

有一个机器人/蜘蛛正在我的网站上快速爬行。useragent是“ltx71-()”,它有几个IP: 52.3.127.144和 52.3.105.23 网站上写着: LTX71 我们不断扫描互联网以进行安全研究。我们的 爬网不是恶意的,它只会记录一个站点的摘要信息 页面 如果您有其他问题,请联系research@ltx71.com 我想知道研究的目的是什么。我在谷歌上找不到任何关于它的信息。我应该阻止这个机器人吗 您可以轻松地从web主机上的.htaccess文件阻止此bot User-age

Web crawler Nutch Crawler没有';无法检索新闻文章内容

我试图从链接中抓取新闻文章:- 但我并没有将页面中的文本放到索引(elasticsearch)中的内容字段中 爬网的结果是:- { "took": 2, "timed_out": false, "_shards": { "total": 5, "successful": 5, "failed": 0 }, "hits": { "total": 2, "max_score": 0.09492774, "hits": [

Web crawler 有人能推荐蜘蛛吗?

是否有一个网络蜘蛛可以抓取论坛的内容 我的公司不提供互联网连接,所以我想画一个论坛的线程,然后我可以看看公司的内容 我已经尝试过WebLech,它可以只绘制静态页面。试试。我用它来镜像整个(或部分)网站供离线使用,效果很好。请参阅以获取介绍。+1我甚至使用wget通过FTP镜像站点作为一种备份

Web crawler 为什么谷歌爬虫会发现几个不在我的页面中的url?

我有一个页面,其中包含许多url。此URL从数据库动态生成。 当我使用Goggle站长工具检查我的站点时,我发现数据库中的一个url有语法错误,站长工具给了我404(未找到)错误。结果我纠正了那个错误。 那天之后,Goggle仍然给我同样的信息(未发现错误)。 为什么会发生这种情况?为了解决这个问题,我做了什么? 谢谢。请稍等。G将在几天后再次抓取您的页面。在那之后,问题可能会得到解决。我已经等了三个星期了。但是这个错误每天都在重复。我还需要等待吗?作为一个选项,尝试重新提交您的站点地图,并使用

Web crawler 木偶爬行器大规模爬行

我们正在编写一个网络爬虫使用木偶。 我们编写的傀儡爬虫程序执行并爬网网站URL,对于页面大约为1500-5000的网站没有问题 然而,当我们执行网站超过5000,如果它在中间由于一些错误或崩溃,那么它需要重新启动。 如果发生错误,如何使基于木偶的网络爬虫从最后一次爬网状态恢复? 木偶戏里有内置的功能吗? 如何让这个傀儡无头chrome网络在队列系统中爬行?我自己用puppeter.js构建了一个爬行器来爬行Google和Bing,我为此奋斗了很长时间。我强烈建议在每次浏览器崩溃或页面调用挂起时使

Web crawler 在抓取分类广告网站后,如何检查列表是否过期?

我对构建分类广告的网络爬虫感兴趣。爬网分类广告的问题是,这些项目不断过期。当一个用户在我的网站上搜索时,有没有办法在列表过期时“即时”检查 基本上,如果我的页面显示20条记录,如何检查是否过期?有什么方法可以检查“在飞行中”吗?是否隐藏此记录,而不是将其显示给用户?可能是一个.js脚本,检查删除记录() 您可以编写一些东西,定期检查列表(通过cron作业)并查看是否过期 如果你正在抓取的页面有某种指示器,可以告诉你它什么时候会过期(“列表在2011年7月8日到期”),你的抓取程序可以对此进行解析

Web crawler 哪种开源爬虫是最好的?

我正在比较这四个Nutch/Heritrix/OpenPipeLine/apachetika 哪一个最好?各自的优点和缺点是什么? 我想有一些可扩展的爬虫,可以爬网的网站列表,并可以修改,如果需要 我还没有研究你提到的爬虫程序,但我知道我编写的爬虫程序是可扩展的,可以修改。它还可以用于AJAX和“仅javascript”网站(即使用Google Web Toolkit的网站) 名称为forklabs javaxpcom,可在上找到。Nutch是其中最全面的,非常可配置。尝试了100万份文件。值得

Web crawler 网站分类

我需要搜刮一千个共享相同结构的网站:它们都有一个菜单、一个标题、一些文本和一个评级,很像一个博客。不幸的是,它们的编码也非常不同,有些是手动的,所以我无法重新利用CSS选择器,甚至可能不依赖它们 我想知道我如何能自动地对它们进行分类,并保存我剩下的头发。我的第一个猜测是使用lynx或其他文本浏览器来获取一些文本块,并根据它们的大小对它们进行分类 你知道更好或更复杂的方法吗 谢谢大家! 查看以分解页面 关于分类,请看mahout.apache.org。我的建议是将问题分为两个主要部分 编写分类部分

Web crawler 在ApacheNutch中仅创建linkdb

我正在使用ApacheNutch1.7版来抓取互联网。一切正常。然而,我对内链接和外链接感兴趣,因为我所做的只是链接分析。因此,我对内容、解析文本等不感兴趣。我如何指导nutch只构建linkdb?但不是其他的(crawldb或segmentdb),因为我对html内容不感兴趣。是否有在爬网时自动清除爬网数据库和分段数据库的选项)。我正在互联网上进行大规模的爬行,需要非常节省空间 中给出了限制爬网内容的详细信息 您可以在nutch站点配置中使用以下配置属性 <property>

Web crawler 基于IP地址、主机名和域名的爬网延迟

例如,在爬行stackoverflow的情况下,根据主机名/域名延迟是有意义的(例如,每10分钟向stackoverflow.com发送一个请求) 在*.blogspot.com的情况下,延迟基于域名的请求才有意义,因为有数以百万计的主机名以.blogspot.com结尾,而延迟基于域名的请求将使服务器收到数以百万计的请求 当爬网范围广泛的网站(网络规模爬网)时,在请求之间施加延迟的最佳实践是什么?我应该根据IP地址、主机名或域名延迟请求吗?最好使用Nutch按IP分区。由于IP分辨率的原因,生

Web crawler 如何找到Nutch爬过的网页数量?

在Nutch爬网结束时,是否可以找到或确定Nutch实际爬网了多少网页 将命令与-stats一起使用,这将为您提供每个状态的细分数据您可以使用readdb bin/nutch readdb crawl/crawldb -stats 示例:bin/nutch readdb crawl/dabfolder/crawldb-stats 输出如下: Statistics for CrawlDb: crawl/dabfolder/crawldb/ TOTAL urls: 563390 shortest

Web crawler 使StormCrawler能够对具有多个喷口的单个域进行爬网

我正在用StormCrawler和Elasticsearch做一个概念验证,只在一个域中爬行,有几个主机——一个有很多页面。有没有办法告诉stormcrawler不要将一个主机或域的所有URL分组到一个单独的组中 我按照Youtube教程进行了设置,并将喷口设置为10个平行度,但据我通过storm UI所知,它只使用了1个平行度。我如何让它将单个域甚至单个主机的URL传播到所有的网络上 谢谢! Jim要对每个主机的url进行分区,您的配置应该具有partition.url.mode:“byHos

Web crawler 从ApacheNutch清除数据

我刚开始使用ApacheNutch,我一直在遵循一些我已经成功使用的教程。现在我想删除在我玩游戏期间收集的所有数据,有没有办法轻松地从Nutch中清除所有下载的数据?纯粹从Nutch端删除通常位于ScrawlDB目录中的所有数据段会让您回到一个干净的状态。如果您已经将数据索引到Solr/ES/等中,那么您可能还希望删除所有这些数据。最后一步可能取决于您使用的存储引擎

Web crawler 如何从heritrix爬网中排除除链接/大纲链接以外的所有内容?

我和Heritrix一起工作,我有点被困在管理它的输出上 我正在研究PageRank,我需要Heritrix生成一个文件来应用排名算法。我需要的文件应该只有每个访问页面的链接和大纲链接 我想尽量避免后处理。是否可以通过指定应包括哪些内容和不应包括哪些内容来定制Heritrix的输出?我已经尝试过修改cxml文件,但是输出中仍然有很多没有帮助的信息(如内容页)。如果不编写代码,就不可能直接执行所描述的操作。如果您想编写代码,可以编写一个非常简单的处理器或ScriptedProcessor,以您喜欢

Web crawler 恶意网络爬虫检测

我想知道,是否有可能通过监听网络服务器流量实时检测恶意网络爬虫?如果可能的话,我想知道检测坏爬虫的方法是什么 如何区分好的爬虫和恶意的爬虫?对于服务器故障来说,这可能是一个更好的问题吗?好的爬虫是众所周知的爬虫,比如googlebot、msnbot。我想检测伪造的网络爬虫,他们不给任何回报。

Web crawler crawler4j只爬行种子URL

为什么下面的代码构建在crawler4j的基础上,只抓取给定的种子URL,而不开始抓取其他链接 public static void main( String[] args ) { String crawlStorageFolder = "F:\\crawl"; int numberOfCrawlers = 7; CrawlConfig config = new CrawlConfig(); config.setCrawlStorageFolde

Web crawler 在服务器上删除页面后,告诉StormCrawler从ES索引中删除页面

我有以下情况: StormCrawler将对现有页面进行爬网 StormCrawler将相应的文档添加到Elasticsearch索引中 该页面已在服务器上删除 =>爬虫程序通过更新状态索引“检测”页面的删除:文档获取状态“FETCH_ERROR”(在达到“max.FETCH.errors”后,获取状态“ERROR”) 问题: Elasticsearch索引仍然保留文档,但由于页面已被删除,因此没有意义 查看配置,我还没有找到一种方法告诉StormCrawler从ES索引中删除状态为“错误”

Web crawler 如何在c#(Azure功能)中下载整个网站

我正在开发一个爬虫,我需要保存一些证据,证明爬虫成功了 我正在寻找一种方法来下载发送URL的所有HTML、CSS和JS,并创建与目标站点相同的文件夹结构 我将不得不使用Azure函数来执行爬虫程序 其想法是废弃一个网站,下载内容并保存在Azure Blob中 我找到了它,但它只显示了如何下载HTML,我需要创建与爬虫看到的完全相同的东西(带有图像、CSS和处理过的JS) 我相信所有的绝对路径都会起作用,真正的问题是我将创建文件夹来保存文件的相对路径 有人能帮我吗?嗯,我相信这个答案对那些和我经历

Web crawler 使用HTTPS URL索引和爬网数据

我的网站是一种公共网站(用户无需登录即可查看)+私人网站(用户必须登录才能使用) 所以我的问题是,谷歌爬虫如何知道我的网站是私有的(URL带有https)。我还想抓取这些内容,并用HTTPS为我的所有ULR建立索引 是否有任何选项支持使用谷歌网站管理员工具的HTTPS URL。如果有一个支持这些URL的选项,那么我想知道Google crawler如何在不登录的情况下访问我的web内容。所以大家提前分享你的想法和感谢。谷歌能够抓取和理解HTTPS URL,就像它能够抓取和理解HTTP URL一样

上一页   1   2   3   4   5    6  ... 下一页 最后一页 共 16 页