Web scraping 如何在casperJs中设置输入标记的值

我的输入元素如下所示: 如何使用casperJs设置/填充其值,使用casper.sendKeys('selector',value') 有几种不同的方法可用于完成此任务 除非需要执行更复杂的操作,否则应使用 : 如果要从CasperJS环境设置值,并且输入元素可选地位于表单元素内,则可以使用casper.sendKeys(): : 如果要从CasperJS环境中设置值,并且输入元素位于表单元素中,并且包含名称属性,则可以使用casper.fill(): : 如果要从CasperJS环境设置

Web scraping IMacros:从站点提取文本

我需要提取到剪贴板激活链接,链接每注册更改 HTML代码: 尝试以下代码: SEARCH SOURCE=REGEXP:"(http://mctop.me/approve/\w+)" EXTRACT=$1 SET !CLIPBOARD {{!EXTRACT}} 错误-1200:解析“(\w+)”-无法识别的esc序列\w.欢迎使用Stackoverflow!请详细说明您到底需要什么,以便人们能更好地帮助您。欢迎来到StackOverflow。请阅读并遵循帮助文档中的发布指南。适用于这里。在您发

Web scraping web抓取与web抓取的区别

我无法真正弄清楚网页爬行和网页抓取之间的区别 如果我使用每个追踪号码从联邦快递网站抓取数据,是网络抓取还是网络爬行 请给出一个很好的简短例子,说明两者的区别 谢谢。简短回答:Web爬行只是使用机器人程序对信息进行索引,而Web抓取又称Web数据提取是一种从Web中提取信息的自动化软件技术 详细的回答: Web爬行又名索引,用于使用机器人(也称为爬虫)对页面上的信息进行索引。网络爬虫基本上被主要的搜索引擎如谷歌、必应、雅虎使用,换句话说,谷歌、必应是主要的网络爬虫之一。 在这里,我们得到一般信息,

Web scraping 如何使用IP阻止来防止站点刮取?

我们的网站面临多重攻击。我们基本上是分类商品网站,帮助客户相互联系 机器人每天都通过提供假手机号码从我们的网站窃取数据。我们没有登录机制。用户必须共享其联系号码才能获取其他用户的联系详细信息 我读了这篇问答文章 智能机器人可以轻松避免移动到robots.txt中列出的文件、更改cookie和更改用户代理 即使使用captcha,他们也可以通过手动输入任意随机数来窃取数据 如果每天超过x条线索,我们计划将线索标记为可疑。这里的问题是,bot可以使用像TOR这样的服务来生成无限的IP。我们如何解决这

Web scraping 如何在swift中将html表格数据解析为字符串数组?

我正在开发一个iOS应用程序,在这个应用程序中,我需要从与swiftsoup库的链接解析HTML。我已经做到了。但它将所有表数据显示为字符串。我需要获得单独的数据,这些数据应该存储在单独的数组中 这是表格: <table width="880" border="1" cellspacing="0" cellpadding="0"> <tr> <td width="81"><strong>Trip Name

Web scraping 如何使用Scrapy FormRequest在分页的.asp站点上模拟下一页链接请求

我在抓取此页时遇到问题: 我的scraper获得子页面的所有链接并正确地刮取这些链接(25个结果),但没有正确地提交表单请求以获得下一个25个要刮取的结果(依此类推)。我将感谢任何人能提供的任何帮助。谢谢 import scrapy class ParcelScraperSpider(scrapy.Spider): name = 'parcel_scraper' start_urls = ['http://maps.kalkaskacounty.net/propertysear

Web scraping 大数字表示日期

我在html(页面源代码)中抓取kickstarter.com,有奇怪的代码。例如: 有没有办法把这个号码“143101162”转换成日期?有没有办法将其转换为ISO日期格式?它看起来像是UNIX历元时间戳—自1970年1月1日午夜以来的秒数。此(143101162)转换为(格林尼治标准时间)2015年5月7日星期四下午3:06:02 是一个方便的转换器。它看起来像是一个UNIX时代的时间戳—自1970年1月1日午夜以来的秒数。此(143101162)转换为(格林尼治标准时间)2015年5月7

Web scraping 刮取一个松散的节点

我正在删除一个“松散”节点,其中包含同一数据的多个元素。下面的代码从列出唱片集的页面中删除城市日期。我只想要每张专辑的第一个城市日期实例,但我不确定如何编写代码,以便只返回第一个城市日期实例 library(rvest);library(stringi);library(stringr) citydate <- read_html("https://www.jazzdisco.org/atlantic-records/catalog-1200-series/") %>% ht

Web scraping 无法使用Scrapy修改中间件中的请求

我正在为一个项目(数据科学)收集有关方法学的公共数据,为了有效地做到这一点,我需要在收到403响应代码的情况下更改用于我的scrapy请求的代理 为此,我定义了一个下载中间件来处理这种情况,如下所示 class ProxyMiddleware(object): def process_response(self, request, response, spider): if response.status == 403: f = open(

Web scraping 使用beautifulsoup从iframe获取值

我试着用beautifulsoup得到温度值。 但当我打印出汤的全部文本时,它只显示一个iframe: <iframe frameborder="0" height="100%" src="https://www.weatherlink.com/embeddablePage/show/c7ea9161378346e18d2e4c0ea056c55b/summary" width="100%"></iframe> 难道不能从这个代码中得到温度值吗 谢谢你的帮助! Mari

Web scraping 网络垃圾视频流URL无法正常工作

因此,我试图从streaminghoster(如StreamCloud.eu、Streamango.com等)中获取视频URL。问题是:当手动检查网站时,我们可以很容易地从“src”-属性中刮取视频源URL:参见此 尽管在使用Java HtmlUnit或Python进行抓取时,我收到了以下信息: 正如您在第二张图片上看到的,src属性没有加载,我已经遇到过几次这个问题。JavaScript是启用的,我已经尝试了很多次,但不知道我做错了什么 有什么想法吗 谢谢,所以我找到了原因。这是因为一些视

Web scraping Scrapy返回0个项目和0个已爬网页面

求你了,我需要帮助。我正在学习刮,一直在努力让它的工作刮一个网站 我每次爬网0个项目。我使用了user_agent,并在settings.py中设置了robot_txt=False,但它不起作用 我注意到,当我使用scrapy shell时,我得到了所有的细节,并且一次又一次地检查我的代码以查找错误,但仍然找不到。请有人帮我检查一下,告诉我哪里弄错了。 蜘蛛代码: import scrapy from scrapy.linkextractors import LinkExtrac

Web scraping 类似Facebook的图像抓取

我正在尝试实现一个图像刮板功能,它的工作方式类似于Facebook发布链接时的工作方式。我不关心实际的UI部分。我只想将URL传递给脚本,让它返回页面上所有图像的URL 例如,把只在某些时间有效的东西组合在一起真的很容易,但我想要的是效果相当好的东西 我自己也有能力写这种东西,但如果已经有免费的东西写出来了,我当然不会这么做 有人知道存在这样一种工具吗?我不在乎它使用什么语言,只要它能在*nix上运行。你可以从python和Scrapy开始。我用python PyQt4和JavaScript做了

Web scraping 如何计算出什么';s";趋势分析;在网站上我也没有访问权限

在我所在的一个论坛上,有一个新闻区,会员们在那里发布新闻。似乎每天都有关于苹果的文章,有人请愿要求删除苹果的文章,因为每天都有同样的故事发生。每个论坛部分都有一个RSS提要 这让我想到,如果能在网站上看到当天的新闻报道趋势会很酷,但我被卡住了,因为我无法访问数据库或后端,因为我是一个普通用户。有人能想出一个办法让我做到这一点吗 我有一个服务器可以承载结果。该站点是否有API或rss源 如果没有,您只能使用file\u get\u contents($url)以网站所有者的权限读取内容 尝试解析r

Web scraping Issu从嵌入式iframe';s配置ID

我想通过ISSU API为嵌入式ISSU播放器获取更多信息,但新的嵌入式播放器似乎不再携带DocumentID,而是一个configId。 但是,API仅适用于documentId 示例嵌入: <div data-configid="0/919xxx" style="width: 525px; height: 356px;" class="issuuembed"></div><script type="text/javascript" src="//e.issuu.

Web scraping 是否有任何方法可以使用BeautifulSoup计算表标记的数量?

我正试图通过维基百科网站显示表格,但表格编号将由用户指定 所以我想,从页面中获取表标记的数量,循环并显示用户指定的数量,然后显示表 到目前为止,我只能显示表中的内容 from bs4 import BeautifulSoup import urllib2 from lxml.html import fromstring import re wiki = "http://en.wikipedia.org/wiki/List_of_Test_cricket_records" header =

Web scraping 使用Linkedin API的上市公司数据?

给定一个公司列表,我想获取员工数量和位置等数据,给定公司名称。当我尝试使用Linkedin API时,似乎无法获取公司简介数据,除非我是该页面的管理员。Linkedin API是否支持此功能?如何实施类似的内容?我认为LinkedIn不会允许这样做,因为就业信息通常被视为私人信息。我指的是公开的信息。例如,在中,我想拉“201-500名员工”的文本。哦,我不确定。

Web scraping Casperjs web服务多线程

我使用CasperJS脚本作为web服务,从节点服务器访问它。我没有做到的是将Casper设置为“多线程”。如果我同时从邮递员那里向Casper发出两个请求,结果将是两个请求之间出现某种混乱,一个响应,第二个响应将为空。我看到PhantomJS有一个页面原则,但我没有发现Casper有类似的原则 我可以同时使用多个请求调用Casper的web服务并获得正确/一致的响应吗 web服务器是否需要一些配置来允许我这样做 该请求是否应以“特殊方式”完成?关于这一点,我有什么需要注意的吗 如果它只能按顺序

Web scraping 使用scrapy登录';行不通

我最近开始使用它,并将其设置为一个典型的任务,即清除需要身份验证的网页 我的想法是从登录页面开始,提交表单,然后从其他受登录保护的页面下载数据 我可以看到我已通过身份验证,但是,当它转到下载页面时,我看到我陷入了重定向循环 我的蜘蛛类如下所示: class MySpiderWithLogin(Spider): name = 'my-spider' download_url = 'https://example.com/files/1.zip' login_url =

Web scraping 如何使用ImportXML公式或类似公式将CSV数据从网站导入google工作表?

我以前使用=IMPORTXML(J1,“/*[@id='afd-header-views-30d'])从socialblade.com网站导入过数字。但现在我想为上个月的浏览量导入一系列数字,我不知道如何导入,这就是网站的源代码: <div id="AverageViewsPerMonth" style = "width: 860px; height: 160px; padding-top: 10px;"></div> <script type="text/j

Web scraping Rselenium org.openqa.selenium.WebDriverException

使用RSelenium,我想单击 按钮此页面有两个视图:桌面模式和移动模式, 我认为桌面视图是隐藏的,不允许您单击 服务器 server <- phantomjs(port=5005L) remDr <- remoteDriver(browserName = "phantomjs", port=5005L) remDr$open() remDr$navigate("https://catalogo.movistar.com.pe/samsung-galaxy-note-10

Web scraping 如何知道在Puppeter中提交的表单是否没有错误

我正在尝试提交一个表单,我正在测试由于无效输入导致表单无法提交的情况。如果我输入的邮政编码有效,那么此行代码将返回null,因为没有错误消息 await self.page.waitForFunction( 'document.querySelector("#adr-zip-error")' ); 但是,我必须在此之前硬编码延迟,或者设置某种超时来捕获此错误消息。 我还试着用同样的方法检查表单本身是否为空,但同样,只有在经过一段时间后检查表单时,它才起作用,因为表单提交需要时间 有

Web scraping Jsoup不显示在网页上可见的某些元素

我们可以在这一页看到,, 有ps-lower-1跨度元素,当我通过 doc.getElementById(“ps-lower-1”)它没有给我数据价格属性,还有文本即将出现,这可能是导致此问题的原因。您需要做的是查看Chromes开发工具中的网络http请求/响应 如果您找到要查找的值(688000Ps4),您可以查看请求/响应,最终会在请求中找到该值,以: 这是我想你想要的数据 为了解析它,您可以使用以下方法查看: stringurl=”https://www.futbin.com/21/p

Web scraping 如何使用配置文件URL获取LinkedIn成员数据?

我正在尝试建立一个服务,使用个人资料URL获取LinkedIn用户的个人资料数据(教育、经验、技能等)。 我不想使用任何LinkedIn开发者API 我遇到的一个解决方案是使用Selenium和BeautifulSoup库,在这里我需要登录并解析html页面,但在这种情况下LinkedIn可以阻止我的IP 我想在一个月内将我的服务扩展到数千次点击 实现这一目标的其他替代方案是什么?不登录就可以这样做吗

Web scraping 如何让Lua点击;“加载按钮”;无限?

这是我第一次使用splash来刮网站。我需要告诉splash单击一个按钮,以便在浏览器上加载其他元素。这是无限的。然后我希望splash返回HTML代码,这样我就可以用我的spider将其删除。加载按钮没有href,因此无法使用分页。因此,我试图编写一个splash脚本来实现这一点。但是,当我使用splash运行脚本时,“btn”部分似乎在返回的HTML中不起任何作用(每次只返回第一页的HTML) 以下是我写的启动脚本: function main(splash,args) local

Web scraping 刮取网页以保存到.csv的最简单方法

有一个页面我想刮,你可以传递它的URL变量,它生成特定的内容。所有内容都在一个巨大的HTML表格中 我正在寻找一种方法来编写一个脚本,它可以遍历180个不同的页面,从表中的某些列中提取特定信息,进行一些计算,然后将它们写入一个.csv文件。这样我可以自己对数据做进一步的分析 刮取网页、解析HTML然后将数据存储到.csv文件的最简单方法是什么 我在python和PHP中也做过类似的工作,HTML的解析不是最容易做的,也不是最干净的。还有其他更容易的路线吗 如果您对python有一定的经验,我建议

Web scraping 搜索机器人检测

是否有可能防止网站被任何刮刀刮伤,但同时允许搜索引擎解析您的内容 仅仅检查用户代理并不是最好的选择,因为很容易模拟它们 JavaScript检查可以是一个选项(GoogleExecuteJS),但是一个好的解析器也可以做到这一点 有什么想法吗?检查链接访问时间是可能的,换句话说,如果首页被点击,那么首页上的链接都会“快速”被点击 更简单的是,在页面中删除一些隐藏的链接;机器人将紧随其后,人们几乎永远不会。使用Luke!:) 检查用户代理,查看它是否将自己标识为搜索引擎机器人 如果是,请获取请求页

Web scraping 从python脚本调用Scrapy Spider?

我已经创建了一个名为aqaq的蜘蛛 它位于文件名image.py中。 image.py的内容如下: from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.http import Request a=[] from aqaq.items import aqaq import os class aqaqspider(BaseSpider): name = "

Web scraping 用自动热键查找并填充输入字段

对所有自动热键大师的挑战: 为我们提供一个函数,该函数将查找光标并将其移动到输入字段(例如LoginName),或者发送输入文本。对于像我这样懒散的老黑客来说,只是在摆弄AHK,它看起来是这样的: FindFillField(*elementid*,*sendtext*,*alt-text*) 其中elementid是字段的HTML id,例如用户名, 其中,sendtext是要填充和删除的文本 其中,alt text可以是额外的特定文本,以帮助识别字段 附加的可选参数总是有助于解决奇数情况,

Web scraping Can';我不知道电话号码显示是如何工作的

我对网络抓取还很陌生,最近我正试图自动删除类似这样的网页的电话号码。我不应该使用Selenium/headless url浏览器库,我正试图找到一种方法,使用web服务或任何其他可能的解决方案来实际请求电话号码,希望能够直接给我电话号码,而不必通过Selenium实际按下的按钮 我完全理解,它甚至可能不可能自动显示一个关闭的电话号码,因为这意味着不可访问的八卦新手网络刮板像我一样;但我还是想提出一个问题,让我的信息从专家的角度得到详细的答案 如果我搜索“显示”按钮DOM元素,它会显示一些我以前从

Web scraping 如何使用casperjs从提供的网站上刮表?

最终的目标是从提供的经纪人网站中以表格形式检索股票数据,并将其保存到某个文本文件中。以下是代码,我通过阅读几篇教程编译了这些代码: var casper = require("casper").create(); var url = 'https://iqoption.com/en/historical-financial-quotes?active_id=1&tz_offset=60&date=2016-12-19-21-59'; var terminate = functi

Web scraping 如何从该网站获取数据?

这里有一个站点(),该表的每个字段(由黄色方框指定)显示关于特定日期的信息。我需要做的是只读每个字段的حجم行(我指的是我在以下照片中用红色方块指定的内容(你应该转到我在第一张照片中提到的选项卡,以查看第二张照片)): 并将它们(存储在我的计算机中)写入如下文本文件: 6.832 M (14%) , 40.475 M (85%), 248,000 (0%), 47.059 M (99%) 605,000 (3%), 15.277 M (96%), 478,714 (3%), 15.404 M

Web scraping 无法将chromium设置为按钮(python)

Basicali,这是我的代码: driver = webdriver.Chrome() url='https://www.gpsies.com/map.do;jsessionid=9B6652B60485A9F1C92C333F683807D7.fe3?fileId=iovpsivunvmipazp' driver.get(url) driver.find_element_by_class_name('btn btn-default').click() 在该网站上,有一个“下载”按钮,下面是

Web scraping HtmlAgilityPack与.NET核心3.1:UTF-8,text/html';不是受支持的编码名称

我使用的是HtmlAgilityPack v1.11.21,自从升级到.NET Core 3.1后,在尝试通过URL加载网页时,我开始收到以下错误:“UTF-8,text/html”不是受支持的编码名称。有关定义自定义编码的信息,请参阅encoding.RegisterProvider方法的文档。(参数“name”) 我找到了这篇文章,但我不确定应该在哪里或如何实施: System.Text.EncodingProvider=System.Text.codepagensencodingprovi

Web scraping 如何更改此公式以进行单元格引用

我试图从marketwatch网站上获取一些财务收入数据。 无论我如何尝试,我似乎都无法对这个公式进行单元格引用(比如B2单元格)。 非常需要帮助,非常感谢 =IMPORTHTML("https://www.marketwatch.com/investing/stock/AIG/financials","table",1) 它需要如下所示(注意双引号的位置): 发帖前请阅读。不清楚“单元格引用”是什么意思。是否要将url存储在单元格中并在IMPORTHT

Web scraping 有没有办法在不被验证码拦截的情况下抓取谷歌搜索结果?

比如说我想从搜索“hi google”中获取结果(只是一个例子)。我正在使用带有Node.js的puppeter进行刮取。我使用以下代码: const puppeter=require('puppeter'); scrape=异步函数(){ const browser=wait puppeter.launch({headless:false}); const page=wait browser.newPage(); 等待页面。转到(“https://www.google.com/search?q

Web scraping 单击输入标记,而不是表单中的

我在用机械化刮几页。分页由javascript post实现,分页链接实际上是input按钮。这些不包括在表格中。你知道我怎么能点击这些吗 我还在编写脚本,可以使用mechanizeruby或mechanizepython。任何一种解决方案都会有所帮助 按钮的html为: <input name="px" value="1" class="pSel" disabled="true\" type="button"> <input name="px" value="2" class

Web scraping 获取HTML表的一部分

我想从网站上获取表的内容 这是网站的源代码: <tr><td><table width='100%'><tr><td valign='top' width='1px' class='GridViewRow1'><img src='/images/pin.gif'></td><td class='GridViewRow1'><a href='Announcements.etc'><b

Web scraping 刮下;“显示更多”;

我试图用BeautifulSoup从特定站点(Google Scholar)中删除所有具有相同标签的对象,但它不会删除页面末尾“显示更多”下的对象。我怎样才能修好它 下面是我的代码示例: # -*- coding: cp1253 -*- from urllib import urlopen from bs4 import BeautifulSoup webpage=urlopen('http://scholar.google.gr/citations?user=FwuKA4UAAAAJ&

Web scraping 获取随机Tumblr博客/帖子

我正在为一个班级做一个数据挖掘项目,我们项目的一部分涉及从Tumblr获取大量随机帖子。不幸的是,tumblrapi(特别是使用PyTumblr)似乎没有直接的能力来实现这一点,因为它需要特定的blog名称或标记。有什么合理的方法可以做到这一点吗?我的最佳想法是从Trending上的帖子中获取博客名称和/或标签,但我不确定这是否足以满足我们的目的。我们最终想要的是一个数据集,它可以被划分为使用指定集中的一个或多个标记进行标记的帖子,以及不包含这些标记的帖子。什么博客,我不确定Tumblr是否提供

Web scraping 无需使用API即可获得坐标的任何解决方案(非联网)

我正在寻找一些解决方案,以获得坐标从地址或任何不使用API 通常,我们使用谷歌地图API,但由于预算问题,目前我们无法在互联网上使用API 有什么解决办法吗 目的:浏览一些网站,如下面的网站 示例网站: 返回:[纬度,经度] 朗:巨蟒 框架:Scrapy我不确定您在这里寻找什么-您需要一些[street address]->[lat,long]的映射,这些映射通常以大型数据库的形式出现,例如Google Maps的后端 如果没有这样的数据库,就无法计算地址的坐标,因此您要么需要自己的数据库(可

Web scraping 刮取的源代码不完整-加载错误

使用requests和urllib3,我获取了的“不完整”源代码。源代码不完整,因为它只包含4个列出的项,而不是20个。查看结果源代码,我们发现以下提示是“加载”/分页问题(行号2191)。我设法获得的完整源代码可以在这里查看: 在费勒看来,这是一个新秩序,而不是一个新秩序。 翻译错误文本:未知错误,请重新加载页面或稍后重试 在该错误之后,将显示用于转到下一页的源代码。可悲的是,在第1页和第2页(共16项)之间存在着口吃 我试图找到一个解决方案,深入研究请求库和urllib3,以找到任何有帮

Web scraping 错误:";“导入的内容为空”;在谷歌工作表中输入TML函数

我想从一张护目镜纸上取下桌子的细节,我用的是公式 =IMPORTHTML(“,”table“,1),但获取空错误..Plz help不幸的是,=IMPORTHTML无法使用,因为您试图从中获取数据的网站动态加载数据 可能的解决办法 如果遵循以下步骤,可能会找到收集数据的可能解决方案: 一,。使用所需数据标识发出请求的URL 您可以通过使用Google Chrome控制台,检查网络选项卡,并通过XHR过滤请求来实现这一点 二,。导入IMPORTJSON库并使用应用程序脚本 通过访问此链接安装库。您

Web scraping 用漂亮的汤刮去一个人在Quora上回答的所有问题

我该如何编写BeautifulSoup程序,以清除特定用户回答的所有问题 输入:作者的URL示例:) 输出:第1列:作者回答的问题示例:“Lorem Ipsum问题” 第2列:已回答问题的URL示例: 第3列:已回答问题的URL示例:此脚本将打印页面上找到的所有答案/URL。还有无限滚动,可以向https://www.quora.com/graphql/gql_para_POST?q=UserProfileAnswersMostRecent_RecentAnswers_Query但我无法从中获

Web scraping 将数据从yahoo finance导入Google sheets

我想将数据从yahoo finance的“选项”选项卡导入我的google工作表。这是以下表格: 首先,您可以看到一个带有不同日期的框,当您更改日期时,URL会更改。URL之间的区别在于,您需要将其和前面的数字604800相加,然后才能得到正确的URL。 如果你使用Excel,你可以下载数据(在表3中是我想要的),没有任何问题,但是你需要在每次日期更改时手动更改网站。 所以我想使用google sheet的ImportXML或ImportHTML。例如,如果在主页中使用: 此公式:=导入XML(

上一页   1   2   3   4   5    6  ... 下一页 最后一页 共 30 页