好吧,也许这个问题很奇怪,但我计划只为立陶宛文的页面编写一个爬虫程序,我试图估计需要多少数据(因此需要多长时间)。也许其他人也有类似的经验?通过查看一些统计数据,可以做出非常粗略的估计:
数据大小为320KB
立陶宛人口占世界人口的0.04%
大约有一个
该值介于2:1和4:1之间()
因此,如果你给世界上每个国家互联网页面的所有权比例(这不是一个正确的假设,但应该是一个有用的假设),那么1万亿页面的0.04%在立陶宛是4亿页面
4亿*320KB=119.20929 TB
如果您压缩页面,并
大家好,我正在使用scrapy框架和python构建一个web抓取项目。
在我的项目的spider文件夹中,我有两个spider1和spider2
蜘蛛1.py
class spider(BaseSpider):
name= "spider1"
........
........
蜘蛛2.py
class spider(BaseSpider):
name="spider2"
............
...........
设置.py
SPID
我见过一些网站在robots.txt文件中使用“Disallow:/sitepanel/或Disallow:/cgi-bin/”。我知道我们使用“禁止:”来阻止搜索引擎爬虫对特定网页或目录进行爬网,但我不明白为什么我们需要禁止“/cgi-bin/或/sitepanel”目录?
在此方面的任何帮助都将不胜感激。提前感谢。正如您所说,搜索引擎将停止对此页面进行爬网
这样做有两个好处:
此页面将永远不会出现在搜索结果中。您不希望用户轻松访问它们
搜索引擎可以专注于你的重要页面,而不是白白浪费爬网预算
我正在导出爬网数据,但找不到配置设置,因此它会导出带有分号分隔符而不是逗号的csv或xls,这会在我打开文件时使列不对齐
编辑:现在我必须打开一个文本文件并替换所有文件;然后用“;”替换所有“;”,以绕过列问题
有人知道这个的设置在哪里吗
谢谢
如何查找网站的sitemap.xml文件
e、 g.转到stackoverflow/sitemap.xml会给我一个404
stackoverflow/robots.txt中写入以下内容:
“从技术上讲,这是无效的,因为出于某些该死的原因
站点地图路径必须是绝对路径,而不是相对路径。
站点地图:/Sitemap.xml“
我认为对于站点地图的位置没有一个标准。这就是为什么在使用谷歌网站管理员工具添加网站地图时,您应该为网站地图指定任意URL的原因。网站地图的位置会影响它可以包含哪些URL,但除此
我想建立一个爬虫来收集(免费)亚马逊应用商店的android应用程序。但我在它的网站上找不到任何下载链接。
我只是想知道是否有办法使用PC(或服务器)抓取亚马逊应用商店。是否有相关的项目或API?您可能想看看
我想从在线数据库中提取数据:
在左侧,有一个“发布数据”部分,我可以在其中指定音乐的开始和结束日期。无论我选择什么日期,URL“”都不会发生任何更改
我想写一个小爬虫,它从URL“”开始,在我选择一个过滤日期(即“2010-2014”)后将所有数据取出。如何将日期部分与默认URL相关联,以便程序可以从第一页开始,并按照所有链接获取该数据范围内的所有数据
URL本身不起作用,因为它没有为我提供爬行的起始页
谢谢。这可行吗?谢谢。
我的公司从一个旧的CMS合并到一个新的CMS,并最终按照逻辑顺序构建了网站。我现在的家伙,将需要找到大约500页,现在是404找到新的网页,并插入重定向文件中的信息。这500页将作为旧网站的列表呈现给我,我必须从中找到该内容的新网站版本
当然,没有一个URL匹配(旧的带有ID,新的带有友好URL)。但对绝大多数人来说,内容是一样的。请注意,我可以访问旧站点的暂存版本,而新站点是实时的,并且引用良好
知道了这一点,我想知道是否有人可以告诉我一些技巧,或许可以自动化,或者至少可以减轻手动抓取两个站点
Builtwith.com和类似的服务(收费)提供使用特定技术(如SalesForce或NationBuilder)构建的域列表。我对builtwith不扫描的一些技术感兴趣,可能是因为它们的市场份额太小
如果我们知道某个网站使用了某项技术的某些页面签名,那么识别尽可能多的这些网站的最佳方法是什么?我们预计会有1000家,我们对流量排名前1000万的网站感兴趣。(我们不认为最大的网站使用这种技术。)
我有一个开源WebCrawler的列表——但我的用例似乎不同于爬虫的许多常规标准,因为我们只想用
我正在使用stormcrawler来抓取40k个站点,最大深度=2,我想尽可能快地抓取。
我有5个storm节点(具有不同的静态IP)和3个elastic节点。
目前,我最好的拓扑结构是:
spouts:
- id: "spout"
className: "com.digitalpebble.stormcrawler.elasticsearch.persistence.CollapsingSpout"
parallelism: 10
bolts:
- id: "part
首先,我不知道这是否是这个问题的正确地点。如果没有,我很抱歉:)
我在考虑写一个蜘蛛来爬网,寻找特定的嵌入文件
然而,我想知道ISP是否允许运行spider,因为它会以很快的速度发出很多请求
或者我应该在请求中加入一些延迟
我已经阅读了我的ISP的合同,但是我找不到任何关于爬行的具体信息。你可以看看。它有一些有用的想法。您应该注意您希望爬网的站点上的ROBOTS.txt。您应该在请求之间留出延迟,以免造成拒绝服务的情况。没有任何东西可以禁止您爬行。它与正常的用户交互没有区别。若你们打开一个有很多
很抱歉,关于如何构建聚合器,已经有多个线程。他们中的大多数人在解释构建一个脚本的细节方面都很有帮助,但我只需要对已经存在的稳定可靠的脚本提出建议
我特别想在我的Wordpress网站上添加一个专门针对时尚的新闻聚合器。简单地说,我需要一个脚本,可以爬网寻找最新的新闻网站,如Glam,Vogue,Instyle,NYTimes,Fashion等,并将他们分为不同的类别,我有-时尚与风格,美容与化妆,健康与健康等
我只需要stackoverflowers的同事们就可以做到这一点(或者只需少量定制)的
我想知道当前版本的stormcrawler支持AJAX/动态内容解析,并将其存储在elasticsearch中
我知道有一项改进正在进行中,以下是链接:
谢谢你的帮助
谢谢
Raj有一家公司尚未合并。您已经可以使用它,您的反馈将有助于使其成为下一版本的一部分。顺便说一句,它现在已合并到主分支中,并将在即将发布的版本中提供。看见
我将Nutch的db.fetch.interval.default设置为60000,这样我就可以每天爬行。如果我不这样做,第二天我爬网的时候它甚至都不会看我的网站。但是,当我第二天抓取时,它昨天抓取的每个页面都会被抓取200响应代码,这表明它没有在“If Modified Since”中使用前一天的日期。它不应该跳过获取未更改的页面吗?有没有办法做到这一点?我注意到在Fetcher.java中有一个ProtocolStatus.NOT_修改,所以我认为它应该能够做到这一点,不是吗
顺便说一下,这
我将展示我的确切示例,但我认为在一般情况下这可能是一个问题,在这种情况下,您必须抓取一个url将您指向另一个页面的页面
我想要抓取的页面位于此url下,但不是直接跟随此链接时获得的页面。我想要的就是你点击“全部显示”时看到的那个
我怎样才能让我的蜘蛛从我想要的开始呢
谢谢“show all”链接是对网页上Javascript函数的调用,它的调用方式如下:
__doPostBack('ctl00$ContentPlaceHolder1$PGN01','')
function __doPostBa
我在ubuntu服务器上安装了mariadb-10.0.9-spider-3.2-vp-1.1-mroonga-4.0
我在maria db1创建了关于machine1的表
enter code here
MariaDB [think_db]> CREATE TABLE IF NOT EXISTS text1 (
id int (10) unsigned NOT NULL AUTO_INCREMENT,
title text NOT NULL ,
text LongText
使用Storm Crawler 1.13,在一个网站上成功运行了Crawler,其中一个页面在网站上被删除,根据Crawler conf下次重新访问时,状态索引更新为FETCH_ERROR,用于丢失的url,当我检入主索引时,该url的记录仍然存在。如何在出现FETCH_错误时自动删除该记录 经过多次连续尝试(由FETCH.ERROR.count设置),FETCH_错误状态将转换为错误。一旦它这样做了,一个元组将在上发送,如果您连接了一个DeletionBolt,那么URL将从Elasticse
一位朋友问我这个问题,我无法回答
他问:我正在制作这个网站,你可以在这里存档你的网站
它的工作原理是这样的,你进入你的网站,比如something.com,然后我们的网站抓取该网站上的内容,比如图片,所有这些,然后上传到我们的网站。然后,人们可以在oursite.com/something.com上查看站点的精确副本,即使挂起something.com的服务器已关闭
他怎么能这样做?(php?)还有什么要求?使用wget。gnuwin32包中的linux版本或windows版本 听起来你需要创建
我写了一篇短文。我获取了所有的网站,但它们都在我的硬盘上。
现在我想对它们进行分析,这样我就可以编写一个简单的界面,比如www.google.de,并在我获取的页面中搜索信息
问题是如何“快速”找到重要信息。因此,计算非常重要。它可以是实时的,也可以是在提取之后。我的想法是写一份含有英语单词列表的口述材料,并数一数词条。。。或者怎么办?我需要学习如何提取信息并压缩它们。但是我不知道去哪里找
爬虫是基于C++的MySQL,其中链接存储。
我希望我的问题是清楚的D
顺便说一句,我的英语很差,但在德语
每次我运行时。/nutch crawl url-dir crawl-depth 3-topN 5。纳奇决定抛出这个错误。我的nutch-site.xml和nutch-default.xml都设置了
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property.
at org.apache.nutch.fet
我正在使用Norconex HTTP收集器和导入器。在哪里可以找到标记器可用字段的信息。即,将在此处显示的字段:
<tagger class="com.norconex.importer.handler.tagger.impl.KeepOnlyTagger">
<fields>id,title,keywords,description,content,document.reference, document.contentType</fields>
我正在尝试抓取大约一千个网站,从中我只对html内容感兴趣
然后我将HTML转换为XML,用Xpath解析,以提取我感兴趣的特定内容
我已经使用Heritrix 2.0 crawler几个月了,但是我遇到了巨大的性能、内存和稳定性问题(Heritrix几乎每天都崩溃,并且没有成功尝试使用JVM参数来限制内存使用)
根据您在该领域的经验,您会使用哪种爬虫从上千个源中提取和解析内容?我建议您自己使用Python编写带有and或or包的爬虫程序。你应该在谷歌上找到一些很好的教程。我在工作中使用Scra
我是网络爬虫的初学者。我正在尝试爬网页面,例如,此页面:
我需要提取搜索结果,例如:Amazon.com或antonline.com。有谁能帮我命名一些技术、工具和软件来帮助我实现这一目标
编辑:我必须使用Java。基本上,我的想法是在浏览器开发工具(Chrome或Firebug)中检查页面。尝试查找特殊id或类。在您的页面上,这是,其中包含使用它
然后你打个电话,得到响应并解析它。(googlefordom、SAX、XPath…)这在语言和libs之间是非常不同的。例如,在Java上,我们有
我有一个开发网站。(不是真正的网站)
当我转到并搜索text-domain.com时,它确实会返回结果
到目前为止,我尝试了什么:
创建了带有以下代码的robots.txt文件(放入我的根目录,即text domain.com/robots.txt):
然后在我的模板文件中添加如下meta标记:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
即使这样做了,我还是在DuckDuckGo上搜索,结果也是一样的。欢迎提出任何建议
p
我正在尝试找出如何抓取一个网站,并找到包含特定跟踪参数的链接。原因:我们的一些内容作者在包含数千页的网站上的许多内部链接中添加了?campaign=测试。这些参数会污染分析结果,需要删除。当然我首先要找到他们所有人
我认为一个定制的爬虫程序可以做到这一点,但我不是一个程序员。大多数链接检查器只报告断开的链接,而不是特定的链接参数。也许我只是错过了一些非常明显的东西?我已经用Norconex HTTP Collector free/开源测试了您的场景,它提供了您想要的,而无需编写代码
首先,从以下
我正在寻找一种在php中爬行没有类或id,但在有类的内部的值的方法
以下是爬虫程序的html代码:
<div class="myclass">
<a href="/to">value to crawl</a>
</div>
下面是我失败的php代码行:
preg_match_all('<div class=\"myclass\"><a>(.*)<\/a><\/div>', $myhtml,
我如何编写一个简单的脚本(用cURL/python/ruby/bash/perl/java)来登录并统计每天收到的消息数量
输出类似于:
1/21/2011 1 messages
1/22/2011 0 messages
1/23/2011 2 messages
1/24/2011 1 messages
主要问题是,我以前从未编写过网络爬虫。我不知道如何以编程方式登录到像okcupid这样的网站。如何在加载不同页面时保持身份验证?等等
一旦我能够访问原始HTML,我就可
在我看来,在这个时候,一个单一的工具将占据主导地位,因为这个过程似乎足够通用:指向一个起始URL,与它的表单和脚本交互,跟踪链接,下载数据。冲洗,重复。虽然我总是在构建临时应用程序以跳转获得几百个文件的时候,获得一定的满足感,但我想知道我是否不仅仅是在重新创建轮子
我承认我从未在任何地方尝试过像自动化这样的商业产品,但由于我正试图全职做我真正喜欢做的事情,分析数据而不是检索数据,我希望这里的人群的智慧能为我指明一个明确的讨论方向。是不是因为有太多的怪癖,以至于一个工具几乎可以适应所有情况
让我澄
我使用Stromcrawler和SQL外部模块。我已将我的pop.xml更新为:
<dependency>
<groupId>com.digitalpebble.stormcrawler</groupId>
<artifactId>storm-crawler-sql</artifactId>
<version>1.8</version>
</dependenc
我正在考虑建立一个内容网站,可能有数千个不同的条目,可以通过索引和搜索访问
我可以采取哪些措施来防止恶意爬虫从我的站点窃取所有数据?我不太担心搜索引擎优化,虽然我不想一起阻止合法的爬虫程序
例如,我曾想过随机更改用于显示我的数据的HTML结构的一小部分,但我想这不会真正有效。理论上,任何肉眼可见的网站都可能被撕毁。如果你甚至想尝试访问,那么根据定义,必须是这样的(如果你的内容不是机器可读的,会说话的浏览器将如何交付你的内容)
你最好的办法是研究你的内容的水印,这样至少如果它被撕毁了,你可以指向水
我在Google play上有一些应用程序。现在,当我登录时,我可以看到统计数据,如总用户安装数和活动用户安装数。我可以手动检查这些数据,但是有没有一种方法可以通过使用我的登录凭据编写代码来自动提取这些数据
我尝试在Java中使用名为Jsoup的第三方工具,但谷歌似乎不允许任何此类工具访问任何信息。目前,有一个官方的google Play Android开发者API,但它的功能相当有限。参考:
此外,还有一个非官方的API:它做的更多,但不认为它有足够的功能来完成您想要提取的内容
有关更多信息,
我计划为一个新的web项目获取一个域。我不是一个SEO专家,但我知道一些关于SEO、点击率和页面排名算法的知识,也做过一些关于域名及其在SEO中的作用的研究
我很难找到更多关于域名本身作用的信息。也许你可以用一个小例子向我说明这一点。让我们假设我会为“最好的朋友”计划一个网站
我会想到这样的领域:
www.friends-best.com
www.for-best-friends.com
www.best-friends.com
www.bestfriends.com
假设人们会在他们的搜索
我有很多网络爬虫在不同的服务器上运行
我希望这些爬虫共享他们已经爬虫的每个url的指纹
我可以通过让每个爬虫在SQL server中检查finderprint来实现这一点
但是,有没有更合适的方法?我只是在寻找一个集合。SQL server似乎有点过分了
我在ubuntu上运行。还有其他数据存储,这是很常见的,但是如果你在Microsoft上运行,你可能想查看一下。两者基本上都是键/值存储,具有一些附加功能,但您不需要使用这些功能
在翻阅文件时,我注意到一行我不熟悉的文字
下面的代码在robots.txt文件的上下文中是什么意思
Allow: /$
“$”的意思从简单的说改变了吗
Allow: /
有些机器人懂得模式匹配$在正则表达式中用于标记行尾。所以这个规则应该允许/,但不允许/foo
但是我没有robots.txt的源代码 根据
可以使用美元符号($)匹配字符串的结尾。例如,要阻止以.asp结尾的URL:
用户代理:谷歌机器人
不允许:/*.asp$
看起来它的行为有点像正则表达式
我们能否创建一个网站,将爬网结果显示为内容?比如说一家特定公司的新员工。选择公司名称后,网络爬虫将抓取与公司相关的最新新闻并显示结果
这能做到吗
我们也可以用谷歌的AdSense来创建这样一个网站吗?是的,这是可以做到的。你可以创建一个网站来显示任何内容。此外,只要您遵守条款和条件,AdSense可以在任何网站上使用
我正试图建立一个非常小的利基搜索引擎,使用Nutch来抓取特定的网站。有些网站是新闻/博客网站。如果我爬网,比如说techcrunch.com,并存储和索引他们的frontpage或任何主页,那么在几个小时内,我对该页面的索引将过时
像谷歌这样的大型搜索引擎是否有一种算法可以非常频繁地(甚至每小时)重新抓取频繁更新的页面?或者它只是对频繁更新的页面评分很低,所以它们不会被返回
我如何在自己的应用程序中处理此问题?尝试在更新频率上保留一些每个frontpage的统计信息。检测更新很容易,只需在下一
有可能限制命中率/IP地址吗?换句话说,我是否可以配置nutch,使其每小时仅命中IP x次数,等等?是的,您可以通过更改nutch-default.xml文件中的fetcher.server.delay、fetcher.server.min.delay、fetcher.threads.per.queue、fetcher.queue.mode设置值来限制速率
不幸的是,我的服务器不区分大小写,短期内无法更换。有些目录需要从爬网中排除,因此我必须在我的robots.txt中禁止它们。让我们以/Img/为例。如果我把它全部放在小写
User-agent: *
Disallow: /img/
…它不映射到实际的物理路径,带有/Img/或/Img/的地址不应用于Disallow指令。爬虫会将这些变化视为不同的路径
这件事很有趣。他们可能使用IIS服务器,SERP中充满了不允许的地址——只有在其他情况下
我能做什么?以下陈述有效吗
User-agent: *
我在一个网站上有一个页面,除了我的页面之外,我没有其他任何访问权限。该网站用于销售各种小产品。
在与他们相处了一年多之后,我使用谷歌广告词来帮助提升自己,我注意到该产品的页面没有一个在谷歌上被索引。当我注意到该站点的robots.txt中没有太多内容时,我想知道这是否与此有关
产品URL采用以下格式:
www.example.com/myshopname/[product ID]?q=I[product ID]
而robots.txt只是:
不允许:/*\u转义\u片段_
没有用户代理。我想
当我访问目标网站时,我们称之为foo.com,但我在和其他几个流行网站上都看到了这一点。在非无头浏览器模式下,一切正常。但在headless模式下,我会得到“很抱歉,您的javascript被禁用,请再试一次”。不,它没有被禁用。他们是如何对抗木偶演员的?我尝试更改UserAgent字符串,但没有效果。还会发生什么?我还使用Puppeter存储Cookie/session/等的完整状态。安装Puppeter、Puppeter extra、Puppeter extra插件隐身,进行测试,在yout
我正在基于StormCrawler项目开发一个爬虫程序。我需要根据URL的优先级对其进行爬网。例如,我有两种优先级:高优先级和低优先级。我想在低优先级URL之前尽快抓取高优先级URL。我需要在爬虫程序中处理上述问题的方法。如何在Apache Storm和StormCrawler中处理这一要求?使用Elasticsearch作为后端,您可以将喷口配置为按所需字段对bucket中的URL进行排序。字段,因此您应该在元数据中存储一个值,0表示高,1表示低,并在conf es.status.bucket
我有一堆ajaxified链接,可以做一些事情,比如投票赞成,投票反对,标记一个后标准社区节制的东西
问题是谷歌机器人会抓取这些链接,并向上投票、向下投票和标记项目
将此添加到robots.txt会阻止谷歌机器人抓取这些链接吗?或者我还需要做些什么
User-agent: Googlebot
Disallow: /item/*/flag/
Disallow: /item/*/vote/
谢谢
编辑:将方法更改为post,Google机器人仍在标记帖子
语法是:
<a href="onc
我一直在阅读关于网络爬虫的文章,并得到了一个充满考虑因素的列表,但是有一个问题我还没有找到任何讨论
任何给定站点的robots.txt应多久提取一次?
我的设想是,对于任何一个特定的网站,一天大概有100页的爬行速度非常慢。
假设一个网站添加了一个新的部分(/humans only/),其他页面链接到该部分。同时在robots.txt中添加相应的行。爬行器可能会在更新robots.txt之前找到指向此部分的链接
有趣的是,写下一个问题就能给出答案。
在阐述上述问题时,我想到了一个解决方案
rob
我有兴趣建立一个程序,从一组特定的网站(例如“ScienceDirect”)获取特定领域(“计算机科学”)的所有最新文章。
如您所知,有些网站会为每篇研究文章发布一个页面,例如:
每页包含特定文章的信息
我想知道什么是最好的工具(开源)?
通用web爬虫程序(如Apache Nutch)提供了一个通用框架来爬网整个web,但在我的情况下,我需要一个特定于网站的爬虫程序尝试通过在Nutch中的regex-urlfilters.txt文件上应用正则表达式,您可以轻松做到这一点。(当然,如果所需页面的
我需要一些关于scrapy中SGMLLinkedExtractor的启示
Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]
对于链接:example.com/yyy/MM/DD/title我会写:
Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]
链接:e
我已经用Hadoop/Hbase生态系统配置了ApacheNutch2.3.1。以下是配置信息
<configuration>
<property>
<name>db.score.link.internal</name>
<value>5.0</value>
</property>
<property>
<name>enable.domain.check</name&
这个问题已经解决了
hi crawler4j
player=新的Clappr.player({来源:http://123.30.215.65/hls/4545780bfa790819/5/3/d836ad614748cdab11c9df291254cf836f21144da20bf08142455a8735b328ca/dnR2MQ==_m.m3u8",
parentId:“#玩家”,
宽度:“100%”,高度:“100%”,
隐藏控制:对,
自动播放:对
});
crawler4j的Html
如果在WordPress网站中,我有以下分类:
-Parent
--Child
---Subchild
我已将永久链接设置为:
%类别%/%postname%
让我们举个例子。
我用帖子名“Sport game”创建帖子。
它的标签是运动游戏。
它的完整url是:domain.com/parent/child/subchild/sport-game
我之所以使用这种永久链接,正是为了更容易地阻止robots.txt中的某些内容
这就是我要问的部分。
在robots.txt中:
User-age
我们正试图确定,对于使用特定JSAPI/服务的网站,使用什么样的最佳策略/工具来查找爬网
例如,我们想确定使用谷歌分析的网站数量
当然,我们可以只检查UA-XXX-XX变量的存在,但是,如果我们想查找使用disqs的站点,那就行不通了。。。等等。我们宁愿运行一个无头浏览器,查看与www.google-analytics.com建立网络连接的页面
这方面的最佳策略是什么 有三种方法可以做到这一点
实现web爬虫或snoop浏览器或网络
诱使现有爬虫交出此信息
从已经收集的人那里得到它
你问的是#1
发件人:
下表显示了谷歌各种产品和服务使用的爬虫程序:
用户代理令牌用于robots.txt中的User-agent:line,以便在为站点编写爬网规则时匹配爬网程序类型。一些爬虫有多个令牌,如表所示;您只需匹配一个爬网器令牌即可应用规则。此列表不完整,但涵盖了您可能在网站上看到的大多数爬虫
完整用户代理字符串是爬虫程序的完整描述,并显示在请求和web日志中
问题
从上面的摘录中,我们可以看到,可以在robots.txt文件中使用用户代理令牌进行匹配,从而检测爬虫
我想在我的服务器上使用用
上一页 1 2 ...
4 5 6 7 8 9 10 ...
下一页 最后一页 共 16 页