Web Crawler_IT技术博客_编程技术问答

Web crawler Rapidminer 6.0.008不保存web爬网结果

标签： Web Crawler rapidminer

我只是按照教程学习如何使用rapidminer，我不知道我做错了什么。我试过的一个教程是：我设置了爬网web进程并将其连接到结果端口。我的参数如下：网址：爬网规则：使用匹配的url存储+ 跟随匹配url的链接+ 将页面写入文件：选中添加页面作为属性：选中输出目录：C:\Users\Owen Capobianco\Desktop\Crawldata 扩展名：txt 最大页数：（空白）最大深度：2 域名：web 延误：500 最大线程数：1 用户代理：Mozilla/5.0（Window

elasticsearch 如何将内容和页面描述存储到ElasticSearch

标签：elasticsearch Web Crawler stormcrawler

我能够获取并存储elasticsearch的页面URL，但我有一个要求，我必须存储页面标题、描述和内容。我相信这是可能的，但需要更多的clar i在IndexerBolt.java和ES_IndexInit.sh上的位置，因为我可以在IndexerBolt中打印页面内容，但无法将内容映射到要更新到ES的正确字段。我看到了一个帖子与相同的相关，但无法理解其工作原理。有人能给我举个例子吗？我们怎么能这样做我在下面试过，但没有成功。 ES_IndexInit.sh index.java - 事先非

Web crawler 如何使用文件列表和索引搜索配置TYPO3爬虫程序

标签： Web Crawler Typo3 tx-indexed-search

我有：类型3 V 10.4.8 索引搜索10.4.8 爬虫9.1.0 文件清单2.4.2 Filelist生成一个目录列表，使您可以在前端的文件存储中导航，并生成指向文档的链接，这些文档当前已为基页编制索引： //domain.com/documents 如果//domain.com/documents上有一个目录，文件列表将创建一个链接，用该目录的内容重新加载页面： //domain.com/documents?tx_filelist_filelist%5Baction%5D=list

Web crawler robots.txt文件中的允许和不允许

标签： Web Crawler robots.txtsearch-engine-bots

我想禁止SE bots访问我网站上的所有文件和文件夹，但特殊文件夹和其中的文件除外。我可以在robots.txt文件中使用这些行吗 User-agent: * Disallow: / Allow: /thatfolder 是这样吗 User-agent:* Allow: /thatfolder Disallow: / 这应该可以。（刚刚更改了顺序）这应该可以。（刚刚更改了顺序）为什么这样做？你能解释一下吗？我在中发现，当条目之间发生冲突时，最小的限制最为重要，因此我认为允许的限制总是比

Web crawler Robots.txt和未引用的位置

标签： Web Crawler robots.txt

如果我想保护文件夹不被遵守标准的机器人抓取，我可以在robots.txt中禁止它现在，我遇到的问题是，通过隐藏一个文件夹，我向其他人展示了它的存在那么，如果没有指向robots.txt的链接，我是否必须指定一个不希望在robots.txt中爬网的文件夹？“好的”爬虫只会正确地跟踪链接，它们不会随机搜索文件夹和文件谢谢。由于robots.txt中的Disallow行是前缀，您可以在“隐藏”目录中提到一个前缀，它不会与任何“公共”目录共享因此，如果你的“隐藏”目录名为/topsecrete\

Web crawler 使用php在Storm中进行非阻塞HTTP调用

标签： Web Crawler nonblocking Apache Storm

我正在评估使用Storm（实时框架，而不是IDE）构建webcrawler。我的喷口将提供一个URI流，必须在第一个用php编写的Bolt中调用和检索这些URI 来自node.js的背景，我知道可以使用回调以非阻塞的方式构建这样的功能。我天真的想法是，只需为该螺栓配置大量任务，以便在一些TAK等待答案时充分利用资源。问题是，php在为每个进程分配大量资源方面臭名昭著，我不知道Storm如何在内部管理这些资源，以及这是否是一个好主意在这种环境中是否可能出现类似node.js的行为？或者我必须切换

Web crawler 网络爬虫的通用输出格式

标签： Web Crawler

需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么。它是XML还是JSON？或者它会根据爬虫程序的不同而有所不同，例如：Python、Java？它会有所不同，另外，您可能不需要一个输出“文件”，因为站点可能很大我已经用ruby写了一个叫做蛛网的爬虫程序(http://github.com/stewartmckee/cobweb)它的数据模型使用哈希。当收到每个页面时，您将看到散列，以执行您希望执行的任何操作出于兴趣，你希望从爬网中得到什么信息？我只是在想一个相对简单的附加功能是为

Web crawler 爬行网站返回错误数据

标签： Web Crawler rapidminer

我正在使用rapid miner从特定数据抓取网站。问题是，如果我经常尝试抓取网站，它会提供坏数据如果我看到来自其他IP地址的相同数据，它显示的数据与我在不同IP地址上爬网的数据不同有什么解决方案可以克服这个问题吗？如今，许多网站，特别是值得挖掘的网站（即：链接的网站）使用复杂的方法来检测和阻止爬行，但与它们有协议的少数大型搜索引擎除外尝试改变您发送的浏览器代码，并在一组机器而不是一台机器之间分发爬网。在AWS上运行一组微实例比运行一个大实例更可取。另外，请确保在两次请求之间设置延迟，因为

Web crawler 如何测试robots.txt是否在本地主机上的本地web服务器中工作？

标签： Web Crawler localhostwebserversearch-engine

我将robots.txt文件添加到本地web服务器的根目录中服务器上robots.txt文件的url为http://localhost/myserver/robots.txt robots.txt文件的内容是 User-agent: * Disallow: / 如何验证robots.txt文件是否适用于本地web服务器我需要在本地安装一些网络爬虫或搜索引擎并运行它来验证吗谢谢如何验证robots.txt文件是否适用于本地web服务器据我所知，robots.txt文件并不能阻止爬虫对您

Web crawler 使用R、Python或C从网站重复收集数据

标签： Web Crawler

我不确定这个问题是否适合这个网站，因为我对这个完全陌生。但我还是会问的。顺便说一句，通常我使用R.Python和C也是可管理的情况是这样的，我需要反复从网站下载数据。每次执行以下步骤时：输入该网站上某个单元格的日期如果没有发生错误，则单击该网站上的按钮生成所需数据。然后单击另一个按钮将数据保存在电子表格中如果发生错误，通常该日期不是交易日期，然后选择下一个日期，直到没有错误发生我需要在过去3年的所有交易日都这样做。请问有没有办法？有没有关于这类问题的实际参考资料？谢谢。哪种语言我在p

Web crawler 如何从Internet存档中检索收藏项目

标签： Web Crawler

是否有用于检索特定集合（即子集合）项的api 例如：可以从中检索集合电影的HTML，也可以从中检索JSON/meta。但是，JSON有效负载没有引用集合的子项（即子集合，如“艺术与音乐”，“社区视频””等）我正试图围绕internet archive API构建一个包装器。API信息非常稀疏[0][1][2]，而且不完整注意：如果您的声誉高于1500，请创建“internet存档”标签 [0] [1] [2] 要获取所有元数据，您必须创建自己的URL。例如，这里是游戏视频的元数据：和电视档

Web crawler 在已通过身份验证的会话中攻击来自OWASP ZAP HUD的URL

标签： Web Crawler zap

我知道这已经讨论了如何向ZAP添加身份验证以攻击URL。这个问题有一些很好的答案。然而，我的背景有点不同假设我已经在ZAP HUD中的一个经过身份验证的网页中，如下所示。我已经通过点击ZAP中的Firefox按钮激活了HUD。然后，我在浏览器中登录到某个受保护的站点登录时，我希望在当前上下文（已登录）中运行AJAX Spider（和其他攻击）。这意味着当我作为一个经过身份验证的用户在站点内时出于直觉，我尝试通过单击HUD右侧的按钮来激活Ajax Spider。但似乎所有的攻击都是从网站外

Web crawler 人们如何从谷歌缓存下载网站？

标签： Web Crawler googlebot

一个朋友不小心删除了他的论坛数据库。这通常不是什么大问题，除了他忽略了执行备份这一事实。2年的内容已经一去不返了。显然，他已经吸取了教训然而，好消息是谷歌保留了备份，即使个别网站所有者是白痴。坏消息是，传统的爬行机器人会被谷歌缓存版本的网站卡住 P>存在任何有助于拖网谷歌缓存的东西，或者我将如何滚动我自己？您可能想考虑查看爬虫.Org缓存。如果你在那里，它的结构通常会更好。如果网站足够小，你可以手动抓取，那么无缝地浏览谷歌的缓存是非常有用的

Web crawler 我想把robots.txt文件放在哪里？

标签： Web Crawler

我有一个域名www.mydomain.com，我设置了apache mod rewrite，以便有www.mydomain.com/myappl。我应该将文件robots.txt放在哪里？谢谢客户端必须能够访问robots.txt。如何实现这一点取决于您的mod rewrite配置。如果需要更多帮助，请发布配置有关详细信息，请参见。我不知道；-）但您可以使用查找文件是否可访问。因此，如果您不知道在哪里可以访问它，请猜测并测试它。顺便说一句：它是robots.txt，而不是robotx.tx

Web crawler 如何对我的站点进行爬网以检测404/500错误？

标签： Web Crawler crawler4j

是否有任何快速（可能是多线程）的方法来抓取我的站点（单击所有本地链接）以查找404/500错误（即确保200个响应）我还想能够设置为只点击到每种类型的链接1。所以如果我有1000个分类页面，它只会点击一个这是一个好的选择吗我想要非常容易设置的东西，我更喜欢PHP而不是Java（尽管如果Java速度明显更快，那也没问题）。您可以通过任意数量的开源python项目轻松实现这一点：机械化似乎很受欢迎美味的汤和汤您可以使用这些方法之一对站点进行爬网，并检查服务器响应，这应该是非常直接的但是

Web crawler 使用导入IO抓取数据

标签： Web Crawler webpageextraction

如何在importIO中的爬虫中使用爬虫例如，有一个公司详细信息列表（已分页），每个公司都有一个审查列表（也已分页）我需要抓取一家公司的详细信息以及每家公司的“全部”评论。我怎样才能做到这一点？我需要两张表格（公司和评论）吗？还有，我该如何使用它不知道具体的网站，很难评论。例如，在站点上实现分页的方式将影响您获取数据的方式。URL结构也将发挥重要作用如果您可以在页面的HTML（view source/inspect元素）中看到所需的所有数据，那么您就有可能将这些数据作为API/CSV 因

Web crawler 刮片-如何获取动态生成内容的值？

标签： Web Crawler screen-scraping

我正在使用Firefox firebug工具检查一个网站。这是用来刮的。我想获取动态生成内容的值我了解这个网站是如何运作的，但我还停留在一个特定的（最后）点上。需要这里有经验的人的帮助最终目的是获得产品的链接：- 步骤1）它使用API搜索产品（在搜索栏中）。此API的输入为产品名称，响应为HTML内容形式的搜索结果，最后在页面上显示结果 Step2）要获取所选产品的链接，网站会点击另一个API，其中包含产品的上述uniqueID，响应（链接）的形式为http://example.com/un

Web crawler 网络爬虫更新策略

标签： Web Crawler Scrapy

我想从某些网站抓取有用的资源（如背景图片…）。这不是一项艰苦的工作，特别是在像scrapy这样的优秀项目的帮助下这里的问题是，我不只是想爬这个网站一次。我还希望保持爬网长期运行，并爬网更新的资源。所以我想知道，对于一个网络爬虫来说，有没有什么好的策略来更新网页我想到了一个粗略的算法。我将爬行过程分为几轮。每轮URL存储库都将为爬虫程序提供一定数量（比如10000个）的URL进行爬网。然后是下一轮。具体步骤如下：爬虫程序将开始URL添加到URL存储库爬虫程序向URL存储库请求最多N个要爬网

Web crawler Nutch无法对特定站点进行爬网

标签： Web Crawler nutch

我正在使用Nutch1.4来抓取网站。出于演示目的，我开始在jabong.com上爬行，但我发现nutch无法获取站点中的所有链接参观后它不会获取此站点中映射在图像上的链接我已将nutch配置为：- conf/nuth-default.xml-->添加了代理名称 conf/regex-urlfilter.txt-->，而不是+，我写了+^http://（[a-z0-9]*）*jabong.com/ seed.txt包含有人能告诉我，如果没有获取所有链接，可能会出现什么问题吗？最后，在打破

Web crawler 仅爬行动态数据

标签： Web Crawler crawler4j

我正试图抓取一家当地报纸的档案，并得到了预期的结果。我是否有办法对爬虫程序进行编程，使每个页面上相同的静态按钮（如主页按钮及其页脚）不包括在爬虫程序中这是我用来显示爬网数据的代码 System.out.println(Jsoup.parse(html).body().text_mod()); 我认为有两种方法可以解决你的问题，一种是通用的，另一种是临时的 1通用要从网站获取内容，您可以使用工具（如）删除样板代码。这将导致由库提取文本。然而，你几乎无法控制锅炉管内发生的事情 2特设可以使用

Web crawler 刮擦：蜘蛛不生成项目信号

标签： Web Crawler Scrapy

Windows7上的Python 2.7.6.2，使用二进制代码WinPython-32bit-2.7.6.2、Scrapy 0.22.0、Eclipse 4.2.1和Twisted-13.2.0.win32-py2.7 我在学刮痧。我让它做所有的事情，除了正确调用管道。process\u item（）。它正在调用管道。打开\u spider（）和管道。关闭\u spider（）确定我认为这是因为spider没有生成任何“item”信号（不是item_传递、item_丢弃或item_刮取）我

Web crawler 是否存在开源web索引？

标签： Web Crawler

是否有一个基于spider的开源web索引，它可以逐步搜索和索引来自整个internet的越来越多的页面（而不仅仅是一个站点）？如果存在这样一个索引，我需要什么来访问它？是否有类似搜索引擎的API调用？搜索引擎使用web索引。web索引将是一个或多个可能保存在文件中的数据结构。web索引包含有关网页上存储内容的信息。我的问题是如何从计算机程序访问此数据结构？

Web crawler 支持在开始爬网之前与目标站点交互的web爬网工具

标签： Web Crawler nutch

我正在寻找一个爬虫程序，它能够使用Ajax处理页面，并且能够在开始爬网站点之前与目标站点执行某些用户交互（例如，单击某些菜单项、填写某些表单等）。我尝试了webdriver/selenium（这是真正的web抓取工具）现在我想知道，在开始爬网之前，是否有支持模拟某些用户交互的爬网程序？（用Java、Python或Ruby…）谢谢 ps-纳奇能做到这一点吗？如果是的话，我很感谢任何描述这一点的链接。您可以尝试将selenium连接到一个基于python的爬虫程序，如。无论何时需要处理AJAX，它

Web crawler 在没有robots.txt的情况下，哪些规则适用？

标签： Web Crawler

搜索引擎不应该抓取没有robots.txt的网站吗编辑1：如果连robots元标记都不存在呢？我正试图确定这里涉及的合法性。就是这样。搜索引擎将在没有robots.txt文件的网站上抓取所有可公开访问的页面。搜索引擎将在没有robots.txt文件的网站上抓取所有可公开访问的页面。我想你应该说可能而不是will@David你说得对，我的错。它还取决于单个页面中的标记。如果连robots元标记都不存在，该怎么办？我正试图确定这里涉及的合法性。就这样。@pranav不，我的意思是，爬虫可能会决定

Web crawler 机器人txt不允许通配符

标签： Web Crawler robots.txt

我很难阻止谷歌抓取一些导致错误的URL 我想停下来 /project/123984932842/下载/pdf /project/123984932842/download/zip 但允许 /项目/123984932842 /工程/123984932842/单位我尝试了project/*/download/pdf，但似乎不起作用。有人知道会发生什么吗？在禁止：行的开头有/吗 User-agent: googlebot Disallow: /project/*/download/pdf

Web crawler 动态数据的新鲜爬行

标签： Web Crawler dynamic-data

我正在尝试编写一个爬虫程序，从一个包含大约15GB数据的网站上抓取信息。我抓取信息并将其存储在数据库中。现在每周都会有新的页面被添加到网站上，同时旧页面也会被更新。这是否意味着每次进行编辑时，我都必须重新爬网整个15GB的数据并重新构建数据库。处理这个问题最简单的方法是什么？谷歌新闻是如何工作的，因为他们面临着类似的问题，即全球范围内的信息更新？到目前为止，我发现了以下关于这一主题的研究论文：为此，是否总是需要编写自定义爬虫程序？我不能使用Scrapy或Nutch吗？在Nutch中，您可以按

Web crawler 我应该配置什么来停止nutch重新索引或再次获取。对于url，它应该只索引一次

标签： Web Crawler nutch

任何人都可以指向我正确的文档或黑客来阻止nutch重新索引或获取相同的内容。我只想对给定的url爬网一次以下是nutch执行的过程：获取种子URL 从该种子URL生成URL 创建链接数据库仅获取Nutch新链接的内容，或者校验和已更改（即修改的URL）它将获取内容并仅为那些新的或修改的链接解析内容对于其他URL，它只生成URL并将其保存在链接数据库中例如：在第一次爬网中，Nutch从10个URL获取、生成和爬网内容现在假设我的网站中添加了3个链接在第二次获取/重新索引中，Nut

Web crawler 使用http 405代码的页面的Stormcrawler解决方案

标签： Web Crawler stormcrawler

我想抓取一个像这样的网页似乎我得到了一个405错误 2018-04-09 11:18:40.930 c.d.s.b.FetcherBolt FetcherThread #2 [INFO] [Fetcher #3] Fetched https://www.notebooksbilliger.de/lenovo+320+15abr+80xs009bge/incrpc/topprod with status 405 in msec 53 该页面似乎具有爬网程序保护。是否仍然可以使用stormcra

Web crawler RenderRon在开发或登台服务器上没有响应

标签： Web Crawler Seo rendering Bots rendertron

我已经在我的开发机器和暂存机器上配置了格式副本，当我检查它时会抛出以下错误 Error: net::ERR_CERT_AUTHORITY_INVALID at https://rovb-staging2.com/men at navigate (/home/ubuntu/rendertron/node_modules/puppeteer/lib/Page.js:622:37) at <anonymous> at process._tickCallback response does

Web crawler 我可以在stormcrawler中按锚点或标题过滤大纲链接吗？

标签： Web Crawler stormcrawler

我查看了JsoupParserBolt代码，在大纲链接通过过滤器后添加了锚。如果我想通过文本/锚点过滤掉链接，我必须在链接通过过滤器之前扩展JsoupParserBolt并向元数据添加锚点，这是真的吗？有没有其他方法可以在不更改java代码的情况下过滤URL 谢谢。好问题，谢谢！您可以创建一个ParseFilter来过滤大纲链接。他们可以访问具有get/setOutlinks（）方法的对象。您的自定义ParseFilter应该能够实现过滤逻辑。最糟糕的情况是，您可以放弃现有的大纲链接，并使用do

Web crawler 良好网络爬虫指南'；礼仪'；

标签： Web Crawler

我正在建立一个搜索引擎（为了好玩），我突然意识到，我的小项目可能会因为点击广告和各种各样的问题而带来灾难那么，好的网络摄影师“礼仪”的指导原则是什么呢？想到的事情：遵守Robot.txt说明限制对同一域的同时请求数不跟随广告链接阻止爬虫点击广告 -这一点我现在特别想。。。如何阻止我的机器人“点击”广告？如果它直接指向广告中的url，是否算作点击？不要跟随标记为rel=“nofollow”的链接此外，你也不必担心广告。如果你只抓取页面的HTML文本，那么在大多数情况下你不会在那里获得

Web crawler robots.txt-它是否适用于已删除的页面？

标签： Web Crawler robots.txt

我一直在使用我的robots.txt文件来排除某些页面被爬网和在我的网站上找到我发现有几个旧页面（现在从服务器上删除了）仍然可以通过搜索引擎找到 Q）我是否需要在服务器上重新创建页面，以便使用robots.txt进行此操作？不，您不需要重新创建页面来在robots.txt中提及它。也就是说，你可以： User-Agent: * Disallow: /foo/bar.html 不管/foo/bar.html是否真的存在。礼貌的机器人不会尝试访问该页面请注意，如果浏览器从搜索引擎获得链接，它

Web crawler 无头浏览器是否需要注意robots.txt？

标签： Web Crawler robots.txt

我想写一个尊重robots.txt的爬虫程序。不幸的是，无头浏览器似乎不支持robots.txt。我与PhantomJS的人进行了讨论，我得到了答案：PhantomJS是一个浏览器，而不是一个爬虫程序，如果你从脚本使用它，脚本负责尊重robots.txt 这是正确的吗？我认为robots.txt必须适用于每个http请求，而不仅仅是主URL 所以问题是：只检查robots.txt作为主url是否足够？不，只检查robots.txt作为主url是不够的。例如，站点可能允许机器人抓取HTML页面，但

Web crawler 如何抓取网站页面并在所有页面上搜索特定文本？

标签： Web Crawler

我正在使用简单的HTMLDOM库开发一个网络爬虫。我有一个网站的所有链接。现在我想抓取我得到的所有链接/页面，搜索并在所有页面上找到一些特定的文本这是我获取所有链接的代码 <?php include_once("simple_html_dom.php"); set_time_limit(0); $path='http://www.barringtonsports.com'; $html = file_get_contents($path); $dom = new DOMDocument

Web crawler 为什么我的网站从GWT中显示的404页面上的搜索词中得到了软404错误？

标签： Web Crawler google-webmaster-tools

我最近刚切换到wordpress，我突然在Google网站管理员工具上发现了几个404软件错误我认为它们都来自于某种程度上的自动搜索，或者被谷歌在我们的wordpress网站的未找到页面上的编码中抓取，因为这是最重要的我只找到了一个搜索页面，它们都使用术语{search_term}作为搜索查询，该页面给出了一个“Nothing found”结果我很想听到一些关于如何解决这个问题的建议这是我在站长工具上看到的，也可以查看软404 Url:abc.com/search/%7b搜索术语%7D

Web crawler Abot网络爬虫将网页或图像存储到文件夹中

标签： Web Crawler

我使用谷歌Abot网络爬虫，想知道如何存储单独的网页或只是图像到一个文件夹。我查看了论坛，它显示了以下内容。但是我不能多次存储到同一个文件中，这是否意味着每次都必须创建不同的文件名，或者是否有一种更简单的方式来存储网页。另外，如果我只想存储图像，我应该使用什么选项？我检查了其他Abot stackoverflow帖子，发现如下crawledpage内容如评论所示。如何使用它们仅存储图像 //crawledPage.RawContent //raw html //crawledPage.Htm

Web crawler 数据爬虫还是别的什么

标签： Web Crawler import.io

我在找一些我不知道怎么做的事情。我对爬行、报废等方面没有深入的了解，但我相信我正在寻找的技术就是这些我有一个大约100个网站的列表，我想经常监控。至少每3或4天一次。在这些网站中，我会寻找一些逻辑匹配，如：文本包含“ABC”，不包含“BCZ” 或文本包含“XYZ”而不包含“ATM” 等等该工具必须在以下方面查看这些网站：网页文档文件 DOCX文件 XLS文件 XLSX文件 TXT文件 RTF文件 PDF文件 RAR和ZIP文件这些匹配必须是增量的（我只想要前X天的最新匹配）最重

Web crawler 我需要停止一个import.io爬虫程序并提取它迄今为止提取的数据。如何在不丢失数据的情况下执行此操作？

标签： Web Crawler import.io

我正在使用import.io的批查询功能抓取25K个URL。它一开始速度很快，但在10公里左右开始急剧减速。现在已经6个多小时了，现在是19公里。不幸的是，我没有时间等待它完成，所以我需要处理它迄今为止收集的任何数据然而，我没有看到一个停止按钮或任何东西，我担心如果我太乱了，数据会丢失非常感谢您的帮助，谢谢提取器软件根据网站为页面提供服务的速度和一系列其他因素来加速和减慢速度，以确保展位获得所有数据的最佳机会；我们这样做是因为我们认为数据质量和覆盖率是至关重要的，所以获得一个快速但低质量的

Web crawler Stormcrawler-运行--本地主机上的远程

标签： Web Crawler Apache Storm stormcrawler

我已经设置了所有的SC步骤，并且能够索引和爬网，但是当我尝试以--remote的形式运行下面的命令时，它失败了，并出现了一个错误 storm jar target/search-search1.0.jar org.apache.storm.flux.Flux --remote es-crawler.flux 我得到的错误是：必须使用“storm”客户端提交拓扑。。。这就是为什么storm UI拓扑摘要未填充的原因。你能给我一些建议和我能看的东西吗？我已经检查了我的本地风暴设置，看起

Web crawler JSoup只正确处理一小部分HTML页面

标签： Web Crawler Apache Storm stormcrawler

我不想垄断这个论坛，但一开始有很多问题 JSoup只正确处理web上找到的HTML页面的一小部分（肯定少于50%）并在其中发现新的URL，这正常吗？这就是我的种子文件所发生的事情，令人沮丧或者有更好的解析器在那里我可以使用检查http.content.limit的值。可能是因为文档被截断而导致部分结果编辑：可以尝试查看JSoup生成的DOM是什么样子的。正如Sebastian所建议的，它可能与JS有关。很难相信一个成熟的HTML解析器项目（比如提交次数超过1000次的项目）会表现得如此糟糕

Web crawler 如何在StormCrawler中将URL作为文本文件种子？

标签： Web Crawler stormcrawler

我有许多URL（大约40000个）需要使用StormCrawler进行爬网。是否有任何方法可以将这些URL作为文本文件而不是crawler.flux中的列表传递？大概是这样的： spouts: - id: "spout" className: "com.digitalpebble.stormcrawler.spout.MemorySpout" parallelism: 1 constructorArgs: - "URLs.txt" 对于Solr和Ela

Web crawler 解释简单搜索引擎

标签： Web Crawler

有人能给我解释一下简单的搜索引擎吗它应该是什么样子，应该有什么组件，以及它是如何工作的有一个网络爬虫，有索引和查询是我所知道的。哪一部分最难做在哪里使用pagerank算法-在爬网中？或者在查询中，即显示结果？什么是索引我读过一些东西，但有点复杂我想做的是创建简单的java搜索引擎。不管使用什么算法，到目前为止，我有广度优先，我认为这是最简单的算法。我有一个简单的网络爬虫，我输入种子url和搜索页面的限制。首先，爬虫会检查链接robots.txt，若可以，它会下载第一个页面，从页

Web crawler 如何让谷歌在删除noindex元标记后重新索引页面？

标签： Web Crawler sitemapmeta-tagsgoogle-webmaster-toolsnoindex

无意中，我在我的域名上放了很多页面。我现在已经删除了这个meta标签，但是我怎样才能让这些页面被谷歌重新索引呢？有小费吗我已经尝试在网站管理员工具中重新提交我的sitemap.xml，但我不确定它是否有效此外，如果谷歌将重新编制索引，我需要等待多长时间？谷歌通常会相当快地抓取您的页面。包含到索引中要慢一点，获得合理的搜索排名需要时间查看您的web服务器日志，确认google bot确实抓取了您的页面，您可以在google中搜索确切的页面，它通常会出现，但开始显示相关术语需要时间例如，如果

Web crawler 网络爬虫黑名单

标签： Web Crawler blacklist

我想抓取网站的基础上，是链接到HTML网页的网站然而，我担心最终会出现各种“不太适合儿童的网站”。有谁知道我可以从一系列黑名单站点开始实施我自己的过滤器以远离（至少部分）着色器位置谢谢稍微不同的方法是在运行爬虫程序的服务器上使用和配置DNS。然后，您可以在爬虫程序中使用自定义过滤器来检测opendns过滤的页面，并防止它们被索引或存储您不必处理和管理黑名单，而是让opendns为您处理和管理黑名单。稍微不同的方法是在运行爬虫程序的服务器上使用和配置DNS。然后，您可以在爬虫程序中使用自定

Web crawler 我应该阻止Googleusercontent.com吗？

标签： Web Crawler user-agent

我从这个域收到许多来自不同用户代理的请求，我是否应该将它们全部屏蔽在一起，否则可能会造成后果？根据这篇文章，这个CDN将您的内容保存在世界各地的不同服务器上，以便让用户从离他较近的服务器加载网页内容。这将减少用户的加载时间。因此，一个后果可能是访问者的加载时间更长。是的，您应该阻止它。这是辱骂。我认为更适合这个问题。堆栈溢出是针对与编程相关的问题，而不是站点管理。我投票将此问题作为离题问题关闭，因为它更适合。我投票将此问题作为离题问题关闭，因为这不是关于编程，而是关于管理网站。

Web crawler 谷歌在同一页面上抓取数千个链接

标签： Web Crawler

我已经创建了一个页面，上面有数千个链接，谷歌可以对其进行抓取，并对通过单个页面上的链接访问的数千个页面中的所有数据进行索引我正在检查谷歌搜索结果后，4天的设置这个谷歌似乎只抓取了数千个链接中的几个，因为搜索结果中出现的链接很少我甚至在谷歌上搜索时放了一个网址：filter 有人知道为什么会这样吗。为什么这一千个页面都没有被谷歌编入索引，而只是随机选取的几个页面呢？你可能想看看这个谷歌页面：谷歌爬虫的本质是，如果你的网站很重要，它会对你的网站进行更多的爬网而重要的意义，是根据链接到你的

Web crawler 使用身份验证对网站进行爬网的爬虫程序

标签： Web Crawler

是否有任何开源爬虫会爬网需要验证用户名/密码才能登录的网站？？我需要它来抓取我的大学网站，以便为网站中的文档编制索引。非常感谢您的帮助。据我所知，没有任何帮助，如果有，您的系统管理员可能不会允许你可以寻找一个基本的爬虫程序的例子，然后自己做…你可以基于PHP/libCurl或Ruby/Curb编写一个脚本。网站的身份验证基于cookie，库提供了在程序中发送cookie的功能我不知道你喜欢PHP还是Ruby。如果您使用的是Ruby，那么您可以编写如下代码 require 'curb' req

Web crawler 另一个url上的PHP调用按钮（数据抓取）

标签： Web Crawler data-scrubbing

我在谷歌上搜索了一下，但找不到任何有用的东西假设我有一个远程页面，比如google.com，我想在上面键入表单中的内容，从下拉菜单中选择一个特定项目，单击一个按钮，然后从提供的页面提取数据我想自动完成这项任务在c语言中，我知道我可以创建一个浏览器对象，并使用它调用特定页面上的按钮，甚至从下拉菜单中选择数据，填写表单，等等使用php可以完成类似的任务吗？如何完成谢谢你抽出时间 Andrej试试这个套餐。更好的是，如果您想了解它是如何工作的，请阅读HTTP协议，特别是GET和POST方法的

Web crawler 美元符号在robots.txt中是什么意思

标签： Web Crawler robots.txt

我对一个网站很好奇，想在/s路径上进行一些网络爬网：用户代理：* 允许：/$ 允许：/debug/ 允许：/qa/ 允许：/wiki/ 允许：/cgi-bin/loginpage 禁止：/ 我的问题是：在这种情况下，美元符号是什么意思对URL/s进行爬网是否合适？关于robots.txt文件如果您遵循，$没有特殊含义，并且没有定义允许字段。符合条件的bot必须忽略其不知道的字段，因此此类bot将实际看到此记录： User-Agent: * Disallow: / 然而，最初的rob

Web crawler 如何抓取重定向的URL？

标签： Web Crawler stormcrawler

我正试图抓取一个我不知道确切地址的网站列表。其中一些是https，另一些是http，或者URL中可能有www，或者可能没有，我只知道它们的主机地址。以下是一个例子： spouts: - id: "spout" className: "com.digitalpebble.stormcrawler.spout.MemorySpout" parallelism: 1 constructorArgs: - ["https://digikala.com/"] 这是