Web Crawler_IT技术博客_编程技术问答

Web crawler 网络爬虫：phpmyadmin数据库连接

标签： Web Crawler

我创建了一个简单的网络爬虫，它正在检索与指定术语相关的所有站点。现在我想把它连接到我的php搜索引擎，在那里它用info存储数据库中的所有数据，并显示与这个词相关的所有数据。有人能告诉我怎么做吗。我用php编写代码

Web crawler 如何使用旅游搜索引擎&；聚合器是否获取其源数据？

标签： Web Crawler

我对旅游搜索引擎有一些想法，我想知道这些网站是如何获得他们的源数据的。他们会从航空公司的主页上删除所有内容吗？考虑到航空公司等的数量，这似乎是一项巨大的工作是否有一些API或web服务标准也是每个航空公司都遵守的我是否必须为我希望索引的每一家航空公司协商访问数据API？我假设航空公司将其所有数据公开为提要或web服务——毕竟，让其他人尽可能容易地出售其航班符合他们的利益有趣的问题聚合器不会刮取信息。他们也不需要这样做航空公司提供座位和航班信息，供集成商代表其销售。与这些网站合作通常符合

Web crawler 如何防止除优秀爬虫（谷歌、必应、雅虎）之外的所有爬虫访问网站内容？

标签： Web Crawler

我只想让谷歌，必应，雅虎抓取我的网站来建立索引。但我不希望我的对手网站使用爬行服务窃取我的网站内容。我该怎么办？你可以阻止谷歌等为你的网站编制索引，但你无法阻止恶意爬虫这么做。如果有人想要窃取你的内容，他们很可能不会在意，也不会遵守这些限制我能想到的唯一选择是知道它们从哪里爬来，并阻止它们查看网站。我希望世界能够找到我，但我希望自己不被人看见？我们中至少有一个人感到困惑…为什么不尝试跟踪浏览模式？如果你得到大量的点击或奇怪的浏览模式，而这些模式不是来自一个人抛出的验证码页面。尝试使用自定义爬网

Web crawler 检测网络爬虫的最佳和最有效的方法

标签： Web Crawler detection

有很多方法可以伪装成一个人。那么，什么是克服它的最好方法呢最有效的方法是Captha，但会降低网站的用户友好性。因此，最好的方法是分析你的流量程序，一旦你的代码检测到不寻常的事情，就要求用户在严格的时间线内回答captha 只要了解基本的基本知识。没有人编写爬虫程序只是为了阅读一页或一篇文章。有些人想要全部，有些人想要快速，而有些人想要常规。有些甚至可能从不同的IP中命中，但它们以相同的方式命中，时间间隔相同。爬虫和人类最大的区别是，爬虫在什么时候击中目标是有纪律的，人类是懒惰的。爬虫的效率足

Web crawler 制作一个网络爬虫/蜘蛛

标签： Web Crawler

我正在考虑制作一个网络爬虫/蜘蛛，但我需要有人给我指出正确的方向来开始基本上，我的爬行器将搜索音频文件并为其编制索引我只是想知道有没有人对我该怎么做有什么想法。我听说用PHP来完成会非常慢。我知道vb.net，那么它能派上用场吗我在考虑使用谷歌的文件类型搜索来获取爬网链接。可以吗？这里有一个关于如何用java编写web爬虫的教程的链接。我相信如果你用谷歌搜索它，你可以找到其他语言的HTML。在VB.NET中，你需要先获取HTML，所以使用WebClient类或HttpWebRequest和

Web crawler 我怎样才能避免爬行的网址，即；“做”；比如从邮件列表中取消某人的订阅

标签： Web Crawler

我正在写一个工具，可以在电子邮件中抓取URL，这样用户就可以进行重点搜索。有没有一种方法可以告诉访问过的URL我们是爬虫，这样用户就不会从邮件列表中获得订阅或取消订阅，或者URL中的其他操作就不太可能被执行否则，有没有什么聪明的方法可以让你发现一个URL只能被一个想采取行动的人访问？一般来说，没有无法可靠地推断给定的URL是否“做”了特定的事情（我想您可以查找模式，例如“取消订阅”，但这几乎不可靠）在进行HTTP请求时，没有可以设置的神奇的“我是机器人”标志。无论如何，一种有用的方法是遵守

Web crawler 疯狂的网络爬行？

标签： Web Crawler

我一直在监控我公司网站上的活动，比如点击什么链接等等。网络爬虫在我们的网站上变得疯狂我认为这是一个问题，我们应该在我们的产品清单上指定一个跟踪。像MSN和谷歌机器人这样的爬虫程序从我的数据中产生了大约90%的流量。大约每2分钟就有200次与网站的互动，即有人查看产品或进入“联系我们”页面。爬虫们只是不断地蹦蹦跳跳，在“家居装饰”区寻找钓鱼诱饵之类的东西爬虫们似乎还专注于搜索术语“spin n glow”，我们用钓鱼作为描述性标签。但是它已经搜索了360多万次了基本上，我在问这正常吗？

Web crawler 向爬虫提供数据库内容的最佳方式是什么

标签： Web Crawler sitemappagerank

我的网站的内容是由用户提供的问题和评论定义的，并且是动态的和不断增长的。该数据库预计将容纳数百万条记录。但是，这些内容是根据访问者使用下拉选项选择的不同类别和类型呈现给他们的。本质上，搜索引擎爬虫不会看到这些内容。让爬虫可以使用这些内容的最佳方式是什么。我是否应该定期运行批处理操作，创建静态网页，并通过站点地图使爬虫可以访问这些网页？请建议。谢谢。通过网站地图提供。您可以将查询参数与提供给用户的所有相关组合一起使用。每个URL+查询参数都应该显示数据库的一些独特内容我建议使用一个简单的索引页，

Web crawler 在ApacheNutch中设置cookie头

标签： Web Crawler nutch

我想抓取一个使用cookies进行身份验证的特定站点。我想在ApacheNutch为抓取站点而发出的每个GET请求中设置cookie和用户代理信息如何在配置中指定cookie信息，或者是否需要为此编写自定义插件？目前无法手动指定Nutch在获取URL时要发送的cookie/头。插件protocol-httpclient支持基于表单的身份验证，请查看httpclient-auth.xml文件。我认为这不会太难实施，我们始终欢迎捐款

Web crawler 抓取有限制的网页

标签： Web Crawler

我有一个关于从网页抓取数据的问题。有些站点对请求有限制，在这种情况下如何进行爬网？在爬网站点时，您可能会发现，由于对站点的请求太多，所以速率受到限制。例如，我的站点可能会阻止您几秒钟，然后我才允许您发出另一个请求。这些限制可能会根据站点以及您发出请求的数量和频率而变化绕过这些限制的一种方法是使用您的语言睡眠方法在请求之间稍等片刻。在Python中，这是时间。睡眠（10）如果您仍然被阻止，您可以尝试通过增加重试时间来满足禁令时间。例如，您在某个请求上被阻止，因此请等待5秒，然后重试（并被阻止）

Web crawler 什么是一个合适的网络爬虫更新间隔？

标签： Web Crawler intervals

我目前正在开发自己的小网络爬虫thingy，我想知道对于网络爬虫来说，再次访问同一个站点的合理间隔是多少你是否应该每天重访一次？每小时一次？我真的不知道……有人有这方面的经验吗？也许有人能给我指出正确的方向？我认为你的爬虫访问应该是有机的我会从每周抓取一次列表开始，当网站内容发生变化时，将其设置为每周爬行两次， [然后]当您看到更频繁的更改时，您会更频繁地爬行该算法需要足够智能，以了解一次性编辑和频繁站点更改之间的区别另外，永远不要忘记关注Robots.txt。。。这是你在爬网中应该

Web crawler 从网站获取图像

标签： Web Crawler

我需要从我有用户名和密码的网站下载所有图片。比如说，网站url是这样有很多图片，我的要求是下载所有图片。在爪哇、C++或任何编程语言中都能做什么？示例代码将非常有用。谢谢使用以下代码从Google网站获取图像 import java.io.BufferedInputStream; import java.io.ByteArrayOutputStream; import java.io.FileOutputStream; import java.io.InputStream; impo

Web crawler Bloom过滤器如何帮助确定URL是否已经爬网？

标签： Web Crawler bloom-filter

我一直听说Bloom过滤器在web爬网中是如何有用的，特别是在确定URL是否已经被爬网时（因为Bloom过滤器在测试集合成员资格时是内存有效的）然而，在web爬行的用例中，如果遇到的URL数量几乎是无限的，那么位/桶的数量不是需要很大吗？特别是，如果你是谷歌或搜索引擎，每天都试图抓取数据因此，我的问题是，当URL的数量不断增加，而存储桶的数量保持不变时，Bloom筛选器如何帮助确定URL是否已被爬网？Bloom筛选器基于哈希函数，该函数生成有限范围的值。无论遇到多少个URL，每个函数都将返回

Web crawler 谷歌检测到不存在'；不存在或配置错误

标签： Web Crawler google-webmaster-tools

我们看到500个错误急剧增加，谷歌网站管理员工具显示了包含HTML的URL。。。显然，我们没有包含HTML的URL，所以我想知道Googlebot是如何找到并列出这些URL的。例如，包含以下内容的url：（注意url末尾的html span标记……为什么会有这个？）谢谢您可能有来自另一个站点的入站链接，这些链接的格式不正确。您可能可以在Google网站管理员工具网站仪表板“搜索流量”部分下的“指向您网站的链接”中看到这些内容

Web crawler 为warc bolt设置新流失败

标签： Web Crawler stormcrawler

我正在尝试设置一个新的流，将Tika螺栓连接到warc螺栓 import com.digitalpebble.stormcrawler.tika.ParserBolt; import com.digitalpebble.stormcrawler.warc.WARCHdfsBolt; builder.setBolt("tika", new ParserBolt(), numWorkers) .localOrShuffleGrouping("shunt","tika"); WARCHdfsB

elasticsearch Stormcrawler的最佳设置->；Elasticsearch，如果爬行的礼貌不是问题？

标签：elasticsearch Web Crawler stormcrawler

我们的大学网络系统大约有1200个站点，包含数百万页。我们已经在本地运行apache的机器上安装并配置了Stormcrawler，并将驱动器映射到web环境的文件系统。这意味着我们可以让Stormcrawler以它想要的速度爬行，而不会产生任何网络流量，也不会对公共web存在产生任何影响。我们让Tika解析器运行到index.doc、.pdf等所有网站都在*.example.com域下我们有一个运行着大量CPU的Elasticsearch实例，内存和磁盘索引有4个碎片度量索引有1个碎

Web crawler 为爬虫程序存储大量URL的最佳方法

标签： Web Crawler

我正在编写一个定制的爬虫程序，需要知道是否对特定的url进行了爬虫，所以我不会两次添加相同的url。现在我正在使用mysql存储每个url的哈希值。但我想知道，如果我有一大组URL，比如说，数亿个，这是否会变得非常缓慢还有其他存储URL的方法吗？人们用lucene来做这件事吗？或者有具体的数据结构来实现这一点吗？您还没有指定您的开发平台，但是有一个非常好的数据结构称为Trie（）在java、C++、C语言……中有很多实现。p> 你可能想试试伯克利DB太晚了！但您可以使用一个示例来描述在哪里

Web crawler Jsoup-从元素获取url

标签： Web Crawler jsoup

我有一个元素链接。（链接是）我正在尝试使用 stringurl=link.attr（“href”）它给出一个空字符串。为什么? （abs:href也已尝试。不起作用）您应该深入到特定元素，然后使用选择器 link.select("li a").attr("href") 在这种情况下，我们需要的属性“a”元素，而不是的“li”

Web crawler 什么'；这是一个很好的网络爬虫工具

标签： Web Crawler robot

我需要索引很多网页，有什么好的webcrawler实用程序？我更希望找一个.NET可以聊天的东西，但那不是一个好东西我真正需要的是我可以提供一个站点url的东西&它将跟踪每个链接并存储内容以进行索引。非常好。它是PHP，但可能会有所帮助。HTTrack----是一款非常好的网站复制工具。效果不错。我已经用了很长时间了 Nutch是一个网络爬虫程序（crawler是您正在寻找的程序类型）----它使用顶级的搜索工具lucene。我还没有使用过它，但看起来很有趣。作者白手起家地写了这篇文章，并公布

Web crawler 一种简洁的方法，用于禁止对所有目录（包括异常）进行爬网

标签： Web Crawler robots.txt

是否要编写robots.txt文件，禁止对指定目录以外的所有内容编制索引当前不允许是唯一有效的方法，这意味着我需要明确指定哪些目录我不保留-但是我宁愿不向世界宣布这些目录有人解决过这个问题吗？没有好的解决办法。正如你所说的，你可以不允许任何向世界宣布事情的事情 >P>如果你不链接到当前URL结构，你可以考虑创建一个“允许”的目录，然后将你想要的内容链接到那里。然后你只需要禁止你的顶级目录或者，您可以为bot用户代理构建某种服务器端过滤器。允许您的robots.txt中的主要服务器，然后

Web crawler 用nutch爬行时出错

标签： Web Crawler nutch

我试图用nutch抓取网站，但出现以下错误： java.net.MalformedURLException: no protocol: Exception in thread "main" java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265) at org.apache.nutch.crawl.In

Web crawler 爬虫程序不从网站根目录获取Robots.txt文件，而是从网站根目录获取

标签： Web Crawler google-crawlers

我已阻止爬虫程序使用robots.txt爬网我的web根目录（/var/www/）。我在/var/www/中看到robots.txt，它有下面一行：不允许/ 现在我需要用爬虫程序对我的web根目录（/var/www/mysite.com）的一个子目录进行爬虫。我在该目录中添加了robots.txt，并在apache中添加了virtualhost，以允许对mysite.com进行爬网。但是爬虫程序仍然从我的web根目录（/var/www）而不是（/var/www/mysite.com）获取rob

Web crawler Scrapy：如何在进入网站之前抓取链接图像并抓取内容？

标签： Web Crawler Scrapy

我最近学习了Scrapy，并使用edX.org作为锻炼目标，但遇到了一些困难假设我要对此页面中的内容进行爬网：一切都很好，除了我不喜欢这个页面上的图片，因为它太大了。我发现页面上列表提供的图像就是我想要的，而这个URL就是我的爬虫程序的起点如何将此课程的第二个URL（课程列表）提供的图像与第一个URL（特定课程信息）中显示的相应课程信息合并为一个项目？Scrapy API中的哪种机制可以帮助我做到这一点？您可以使用请求的meta功能来传递imgurl # parse list page

Web crawler 将URL从mysql而不是seed.txt注入Apache Nutch

标签： Web Crawler nutch

我是ApacheNutch新手，我想从mysql数据库动态注入URL。Apache Nutch是否提供了这种可能性？如果没有，有没有类似的实验可以让我学习？或者有什么建议？Nutch 1.x=>不是现成的。您必须修改注入器代码，以便它从MySQL中读取，但这当然是可行的。几年前我为一位顾客做了这件事或者，您可以使用，它有一个MySQL模块，不需要额外的工作就可以让它工作。我们博客上的介绍了如何将MySQL与SC结合使用 Nutch2.x使用GORA作为中间层，IIRC有一个SQL插件。不确定其

elasticsearch 当一个以前的；取回；url在web服务器端被删除，StormCrawler会再次访问它吗？

标签：elasticsearch Web Crawler stormcrawler

我们有很多网站正在更新、添加和删除。我很好奇Stormcrawler是如何处理一个带有先前“获取”的url的站点的，当SC下次到达该站点时，它已经被删除，并生成重定向或404。“索引”索引中来自旧版本页面的内容会发生什么变化我知道“Status”索引中的url可能会更改为“REDIRECTION”或“fetcherror”之类，但是内容本身呢？它被删除了吗？它还剩下吗？我试图弄清楚SC在这里的反应，以及我是否必须清理“索引”索引中的这些孤立文档我希望SC删除不再存在的内容，但我想我会要求确保

Web crawler 机器学习示例-确定网站是商业网站还是个人网站

标签： Web Crawler supervised-learning

我有一个机器学习问题。我有一个很长的域名列表，我必须找出哪些是电子商务网站，哪些是个人网站。这是一个困难的问题，因为我没有任何训练数据。我提出了几个想法：手动浏览几百个这样的网站，判断它们是商业网站还是个人网站，并以这种方式开发培训集（冗长而乏味！）抓取这些网站，搜索一些关键词，如“立即购买”、“价格”、“信用卡”。等等有人有其他方法吗感谢您可以自适应地修改关键字集：当您四处爬行时，可以将与现有关键字高度相关的单词添加到列表中。彼得 p、我想添加这一点作为评论，但我没有足够的声誉点…

Web crawler 如何在爬虫程序中处理页面更新？

标签： Web Crawler search-engine

去年我在为一个搜索引擎构建一个爬虫程序，我们遇到了处理页面更新的问题；页面会随着时间的推移而变化，我们需要跟踪这种变化，并在知道这些页面的内容发生变化时重新抓取这些页面所以，我们向我们的教授寻求解决这个问题的方法，他让我们寻找这些页面的网站地图。我们发现并不是所有的页面都包含可以帮助我们解决这个问题的网站地图，我们告诉他，所以他告诉我们一个——有点奇怪——的解决方案，可以在随机的时间值后重新爬网也就是说，我已经试着调查这个问题，但没有找到任何可以帮助我的方法。所以为了以最低的效率解决这个问题

Web crawler 在线工具，用于从带有URL列表的网站提取数据并将其抓取到excel中

标签： Web Crawler excel-2010extractweb-content

是否有任何在线工具（不在计算机中安装软件）可以从带有URL列表的网站提取数据。我想使用coulmns从www.indiabix.com提取数据，如： 1）问题: 2）选择1 3）选择2 4）选择4 5）回答（这是启用java脚本的） 6）解释我想把这些信息都输入excel。我尝试了import.io，但效果不太好，另一个工具WEBCONTENTEXTRACTOR不是免费的，试用版只有14天。我刚刚尝试了“列车上的问题”部分：仅使用Magic（即基于web的工具），我认为您可以

Web crawler Crawler4j下载文章

标签： Web Crawler crawler4jcategorization

我正在尝试使用Crawler4j从新闻门户网站下载文章。我想将它们存储在“体育”、“科学”、“健康”或该门户网站制作的任何其他类别下的文件夹中。Url解析是不够的，因为有些门户不在Url中使用类别。我唯一的想法就是做一棵树，记住在当前页面上找到的链接。有更简单的方法吗？您可以解析实际页面并使用CSS标记，识别标题或面包屑我建议使用JSOUP来实现这一点你需要知道新闻网站以及哪个css标签是面包屑css标签。Hi，如果你认为我的答案可以接受，我可以请你接受吗？

Web crawler 有可能抓取黑色网页吗？

标签： Web Crawler analyticsbigdata

到目前为止，我正在抓取来自不同来源的数据，如实时流媒体Twitter和Facebook API，并将其存储在单独的数据库中。之后，我使用这些大数据来了解用户行为和其他一些类型的分析我试图做的是相同的，但在黑暗的网页，我想抓取所有的网页，可以通过TOR浏览器访问。我在几篇博客上搜索过这样的东西，但我发现它们都只抓取日志文件有没有可能像我们使用社交媒体平台API那样抓取黑暗的网页是的，这是可能的——我们已经做了很多年了。我们使用Ubuntu，因此在爬虫上安装tor： apt-get-insta

Web crawler 为什么Bing crawler不能获取我的网页的动态内容？

标签： Web Crawler single-page-application

我的SPA网站（基于Node/Express/Mongo/Angular X）已经启动并运行。我创建了一个sitemap.xml并提交给了微软Bing，从服务器日志中，我看到他们开始爬行。但是，我注意到调用了页面URL，但没有调用该页面的关联API。因此，基本上它只是索引每个页面的静态框架，而不是动态的真实内容我在谷歌上搜索，看到有人说“谷歌不能为动态内容编制索引”，如本文所述。然而，我也看到其他人说，爬虫只是一个人浏览，它应该得到它的动态内容我很困惑。有人能澄清一下吗？如何修复它网络爬虫

Web crawler 风暴爬虫&x27；s default-regex-filters.txt

标签： Web Crawler stormcrawler

我已经处理这个问题有一段时间了，还没有弄清楚StormCrawler的default-regex-filters.txt文件是如何工作的在一个例子中，我需要将爬虫程序限制为只爬网该站点下的项目，而不爬网该站点上的任何其他目录。我把规则 +.*\/dev\/.* 进入default-regex-filters.txt的最后一行，但它似乎不起作用。我认为标准的正则表达式规则适用，但事实似乎并非如此。上面的一个示例之前有/没有\并且它正在工作？我对此感到相当困惑，不知道该文件中是否有regex的备

Web crawler 消息队列：哪种情况最好？

标签： Web Crawler message-queue

我写了一个网络爬虫爬虫程序有两个步骤：获取html页面然后解析页面我想使用消息队列来提高性能和吞吐量我认为有两种情况：情景1： urlProducer：获取目标url并将其添加到队列1 urlConsumer：根据作业信息，获取html页面并将其添加到queue2 parserConsumer：根据作业信息，解析页面情景2： urlProducer：获取目标url并将其添加到队列1 urlConsumer：根据作业信息，获取html页面并将其写入db parserProducer

Web crawler 使用带身份验证的wget抓取coursera网页

标签： Web Crawler wget

我试图在Coursera中抓取一些网页，这些网页对于课程结束后的复习很重要，例如教学大纲、家庭作业等我正在使用wget，但是我发现需要登录。所以我试了两个帖子：。它们都不起作用我发现Coursera网页没有以*.html或*.htm结尾。有没有办法在Coursera中使用wget通过登录和下载网页？此Python包可能更适用于您所要求的内容，但它不使用wget，而是使用并且需要Python。作者使用Python2.7和pip包编写了笔记。这个软件包的优点是，您可以在一次运行中下载与课程相

Web crawler 如何使用robots.txt中的站点地图创建URL白名单？

标签： Web Crawler sitemaprobots.txtwhitelist

我正在尝试创建一个供爬虫访问的URL白名单（换句话说，我想要一个爬虫访问的URL列表，并且我希望爬虫只访问那些文件）我有一个包含白名单上所有URL的网站地图我应该如何格式化robots.txt 这行吗 User-agent: * Disallow: / Sitemap: sitemap.txt 还是我必须这样做 User-agent: * Disallow: / Allow: whitelist/* Sitemap: sitemap.txt Sitemap和robots.txt没有直接连

Web crawler 使用import.io在多个具有不同结构的网站中搜索单词

标签： Web Crawler extractimport.io

我有一个超过10000个网站的列表，我想在所有这些网站中搜索一个关键字如果网站包含关键字，则预期结果应该类似于链接和值为1的列，如果不包含关键字，则为0 有没有办法指定要使用import.io搜索的网站列表和关键字？当您正在爬网的每个网站都有类似的结构时，import-io会做得最好。如果设置为使用导入io 1）将所有网站链接放入一列 2）使用“提取器”类型API的“批量提取”选项从每页中提取所有文本并将其放入一列中 3）打开导出的excel或google电子表格，并使用“查找”功能查看

Web crawler 我的网站包含一些聊天的外部脚本。谷歌无法索引该页面，因为该脚本阻止访问。

标签： Web Crawler googlebot

如何告诉googlebot此脚本不应用于索引

elasticsearch 使用Elasticsearch的爬虫（Nutch除外）

标签：elasticsearch Web Crawler nutch

我试图在设置数据系统时得到一些建议。我想设置一个网络爬网系统。它可能会定期抓取几百/千个站点我知道Nutch并使用过Nutch，但我想知道是否有人知道有比Nutch更好的爬虫我还使用Elasticsearch作为索引器，很难让Nutch与更新版本的ES一起工作。您可以看看它基于Apache Storm，它不仅是一个功能齐全的爬虫程序，而且还专注于近实时的爬虫。在撰写本文时，ES通常是非常更新的，它支持ES v6.1.1（），因此您可以使用它。请记住，这是一种与Nutch不同的方法和技术，尽管

elasticsearch Stormcrawler:写入弹性集群问题

标签：elasticsearch Web Crawler Apache Storm stormcrawler

SC下载时有一个本地主机设置，可与--local和--remote完美配合使用。当我将其更改为写入Dev弹性搜索服务器（集群）并已更新时，ES_IndexInit.sh和ES_conf.yaml（ES.indexer.addresses和cluster.name）以获得正确的属性值ES_IndexInit在该服务器上创建的索引与预期的一样好，但这不会写入该服务器。我在日志中没有看到任何错误，并且我看到日志中显示的URL。这甚至不会写入状态索引。我不确定我遗漏了什么？您是否也修改了es.statu

Web crawler 我如何才能像谷歌一样抓取社交媒体网站？谷歌是使用每个站点特定的API，还是使用站点非特定的爬网？

标签： Web Crawler google-crawlers

我如何才能像谷歌一样抓取社交媒体网站？谷歌是否使用每个特定于站点的API来提取站点内容，还是使用非特定于站点的爬网？AFAIK他们对此有正式的协议或API。我相信他们在几年前（那时）与Twitter达成了一项特别协议，但我不确定这样的事情是否还存在如果你看到了，你会注意到他们有一些拦截器，所以我相信谷歌会像其他网站一样抓取他们这并不是说网站所有者对谷歌机器人没有特殊待遇。如果你想看到像Googlebot那样的页面，请使用

Web crawler 如何使用nutch 1.2对特定URL进行爬网

标签： Web Crawler nutch

我正在使用nutch-1.2，但无法将配置文件限制为仅对给定URL进行爬网我的crawl-urlfilter.txt文件是 # Each non-comment, non-blank line contains a regular expression # prefixed by '+' or '-'. The first matching pattern in the file # determines whether a URL is included or ign

Web crawler 网络爬虫的典型礼貌因素？

标签： Web Crawler website-admin

网络爬虫的典型礼貌因素是什么除了始终遵守robot.txt之外 “不允许：”和非标准“爬网延迟”：但是如果站点没有指定显式爬网延迟，那么默认值应该设置为什么？我们使用的算法是： // If we are blocked by robots.txt // Make sure it is obeyed. // Our bots user-agent string contains a link to a html page explaining this. // Also an email ad

Web crawler 避免或阻止对所有负载平衡的站点进行爬网

标签： Web Crawler Umbraco load-balancingrobots.txt

我们在负载平衡环境中有一个Umbraco站点，我们需要确保只对实际URL进行爬网，而不是对不同的生产URL进行爬网我们只希望example.com被索引，而production1.example.com和production2.example.com上的负载平衡器则不被索引我是要在robots.txt中添加一个不允许这些URL的规则，还是在头部添加一个metanofollow标记？或者有没有其他方法使负载平衡URL不被爬虫编入索引？最佳解决方案：不要公开特定于节点的URL（我们通常使用本地i

Web crawler 如何抓取单个页面而不是其中包含的任何链接并输出源代码？

标签： Web Crawler phpcrawl

我使用的是phpcrawl，下面是代码。我想爬网提到的链接，并得到所有的工作 <?php // It may take a whils to crawl a site ... set_time_limit(10000); // Inculde the phpcrawl-mainclass include("libs/PHPCrawler.class.php"); // Extend the class and override the

Web crawler 如果数据在滚动后附加Javascript，如何抓取整个网站

标签： Web Crawler

我需要抓取一个网站，但问题是，在底部没有链接分页。如果滚动到底部，数据将追加。现在我怎样才能让我的爬虫做到这一点？有什么想法吗？向下滚动时，尝试检查执行的脚本以追加数据。它必须以某种方式检索额外的数据——只要看看它在做什么，然后让你的爬虫做同样的事情。使用像Selenium这样的机器人可以工作，你可以在真实的导航器中模拟真实的用户。我曾经在facebook上做过一件事，就是在C++/Qt中使用JavaScript解释器，然后通过它发送请求。比硒快得多我相信谷歌的处理能力比你们强得多，网站管理员

elasticsearch 使用metadata.transfer和N:M关系抓取小型主页

标签：elasticsearch Web Crawler stormcrawler

大家好我们使用StormCrawler和elasticsearch为我们的主页建立索引，其中包括“旧页面”和“新页面”。简言之，我的问题是：如果两个页面A（旧）和B（新）链接到页面X，如何将元数据从B传递到X 我的问题是：我们一步一步地重新打开了我们的主页。所以当时我们有pdf文件，可以通过旧的html页面、新的html页面或两种方式访问出于“订购依据”的目的，我们必须标记新html页面可访问的所有pdf文件。因此，我们在seeds.txt中插入“newHomepage=true”，

Web crawler Stormcrawler:ApacheTika用于解析PDF属性

标签： Web Crawler apache-tikastormcrawler

我已经添加了Tika作为我的StormCrawler实现的参考，它可以在爬网中获取PDF文档。但是，标题、作者和其他属性不会被解析。我尝试了“index.md.mapping:”的不同组合，并向ES_IndexInit添加了相应的属性，但PDF文档的Kibana（索引）中的内容字段始终为空。一切都适用于HTML页面。如果我遗漏了一些东西，或者我可以看一个例子，你能帮我提些建议吗 es爬虫。流量：名称：“爬虫” 包括： -资源：真的文件：“/crawler default.yaml” 覆盖

Web crawler Mozmill:关键字列表-->；Google中的首个结果URL

标签： Web Crawler ui-automationmozmill

我有一个关键字列表。有了Mozmill，我想在Google上搜索时获得每个关键词的第一个结果URL。你必须向Mozmill提供一个它应该爬网的URL列表，因此你必须生成你想要爬网的页面的URL。Google支持各种查询，下面是URL的格式：http://www.google.com/search?q=keyword 您必须将“关键字”替换为实际关键字，因此假设您的关键字包括单词牙医，iphone，眼药水，您将生成以下3个URL： http://www.google.com/search?q=de

Web crawler 如何在和服上自动爬行

标签： Web Crawler kimono

我用的是和服实验室，但我用的是自动爬行我已经看到Xytrix回答了有，但我认为如果我从开始按钮开始操作，情况也是一样的有一种方法可以自动完成吗？我使用现有的API做了这个基本的穴居人示例，我想自动刷新结果。。。这怎么可能 `http://codepen.io/Davi91/pen/ONwmoE`

Web crawler 如何从维基百科中提取语义事实

标签： Web Crawler

我想写一个程序，通过wikipedia页面，提取形式（“主题”、“关系”、“对象”）的语义事实。事实的例子可能是（“帝国时代”，“由开发”，“合奏工作室”）。如何才能做到这一点？以下是一些想法：您可以利用机器学习，更具体地说是NLP或（自然语言处理）来解析网页，并基于解析的内容生成事实，或完成句子，甚至回答问题，例如（通过您的示例）“谁是帝国时代的开发者？” 另一种方法是使用网络爬虫，但是，一旦你收集了任何信息（这将是最简单的部分），你就需要以某种方式减少这些数据，对其进行分类，并创建一个有