Web scraping 使用python mechanize登录网站

我正在使用python mechanize登录社交网站。我遇到了一个错误: HTTP错误403:robots.txt不允许请求 这是我的简单代码 import urllib import re import mechanize browser=mechanize.Browser() browser.open("https://www.pinterest.com/login/") browser.select_form(nr=0) browser.form['username_or_email']

Web scraping &;nbsp;当使用BeautifulSoup刮取网页时,类会重新生成

我试图从网站中提取定价数据,但每次加载页面时,类都会重新生成为不同的字母序列,并且价格显示的是,而不是数字。有没有一种技术可以让我以任何方式绕过这个问题?谢谢以下是检查元素时显示的html行: <div class="zlgJQq">$</div> <div class="qFwqmC hkVukg2 njGalW">&nbsp;</div> $ 非常感谢您的帮助 也许该网站正在积极劝阻您删除他们的数据。这就解释了明显随机的类名

Web scraping 当登录页面是GET方法而不是POST方法时,如何使用scrapy spider登录?

我计划用一个刮擦蜘蛛登录。 登录页面是一个GET请求方法 如您所见,这是一个GET方法,没有为id和passeword显示任何属性 但是在HTML代码中,有一个链接(当用户在我的浏览器的url栏中写入它时,它不起作用),它表示一个POST方法method=“POST”。但当我登录时,浏览器控制台的网络中没有显示POST文件 然后怎么办?看起来是POST,POST变量\u username和\u password正在发送: (当我点击右侧面板中的“编辑并重新发送”时,Firefox的屏幕盖)

Web scraping 使用谷歌搜索API访问谷歌增强事件结果的方法?

我正在努力实现谷歌搜索特定区域事件的自动化。当手动搜索事件时,例如“洛杉矶演唱会”,有一种称为“事件”的迷人的丰富结果形式,其特征是结构化数据,如日期、事件标题、主持人等 我想自动搜索这些事件,但无法找到允许抓取这些事件块的API或站点。是否有一个谷歌搜索关键字或其他方法,我可以隔离这些事件

Web scraping 如何遵循javascript:GO(123456)hrefs在浏览网页时访问新URL?

我正在尝试创建一个webscraper来解析不同的网球比赛,并尝试通过href链接访问每场比赛的更多信息页面。我目前正在使用Scrapy,以前也做过类似的工作,但通常在href标记下,我会发现实际的URL可以简单地跟随。现在,我发现类似的事情,并且很难弄清楚如何使刮板遵循这一点 我发现很多网站都在贬低Scrapy,以及它在javascript中的效果如何,并且已经开始关注Selenium的潜在解决方案,我对Selenium是非常陌生的。问题是,这些都没有做我需要做的事情,除非他们在一个非常高的层

Web scraping 如何修复python在.csv文档中返回多行而不是一行的问题?

我试图从一个学校项目的公共论坛中收集数据,但每次运行代码时,生成的.csv文件都会显示文本变量的多行,而不是一行 从bs4进口美汤作为汤 从urllib.request导入urlopen作为uReq 我的https://www.emimino.cz/diskuse/1ivf-repromeda-56566/' uClient=uReq(我的url) page_soup=soup(uClient.read(),“html.parser”) uClient.close() containers=p

Web scraping 我什么时候必须设置标题?如何获取标题?

我正试图从www.blogabet.com上抓取一些信息 与此同时,我正在udemy参加一个关于网络绘画的课程。我参加的课程的作者已经给了我问题的答案。然而,我不完全理解为什么我必须采取他提到的具体步骤。你可以在下面找到他的密码 我在问自己: 1.对于哪些网站,我必须使用标题? 2.如何获取必须在标题中提供的信息? 3.如何获取他获取的url?基本上,我只是想取: 非常感谢:) 如果在加载该页面时查看网络面板,可以看到XHR及其发送的标题 看来他只是复制了这些 通常,您可以跳过除用户代理之外的

Web scraping 如何拥有多个上下文选择器?

我现在正在做围巾 我当前的很多代码都是这样的 contextSelector = 'a[href^="/clubs-and-societies/academic/'; (本工程) 但是,要选择多个页面,使用多个上下文选择器不起作用 contextSelector = 'a[href^="/clubs-and-societies/academic/'; contextSelector = 'a[href^="/clubs-and-societies/culture/'; co

Web scraping 为什么我不能用scrapy将数据导入csv?

我想刮一个交易网站与刮包,我做所有的设置。当我写作时 scrapy runspider exp.py-o exp1.csv 它会刮取,但不会显示在csv文件中。 有什么问题吗?我更正了204对200的回复,站点没有准备javascriptscrapy crawl spidername-o csvname.csvif如果您仍然有问题,您可以添加更多详细信息吗?你得到的回溯?PS:scrapy将在内存中存储这么多记录,然后一次将它们全部转储到CSV。因此,不要期望项目立即显示在csv中。

Web scraping 使用BeautifulSoup--Python刮表

我正试图从这个网站上抓取一张桌子: 我正在使用以下代码: import requests from bs4 import BeautifulSoup URL = 'https://covidactnow.org/state/CA' page = requests.get(URL) soup = BeautifulSoup(page.content, 'html.parser') soup.find_all('tr') 我认为代码应该找到该表,但它返回一个空列表。@KunduK是正确的。你

Web scraping Jsoup解析Youtbue页面

我正在使用Jsoup解析YouTube的页面,但我得到的内容和我从浏览器得到的不一样 代码 我从Jsoup获得的内容,body以 <iframe src="https://accounts.google.com/ServiceLogin?uilel=3&amp;service=youtube&amp;passive=true&amp;continue=https%3A%2F%2Fwww.youtube.com%2Fsignin%3Faction_handle_s

Web scraping 如何获取youtube视频id

我认为视频的视频id是在watch?v之后的内容,因此对于视频,请再次参见RgKAFK5djSk 但是当我使用这个API来查找视频的缩略图时,它不起作用 http://img.youtube.com/vi//maxresdefault.jpg在这个论坛上,他们说只放视频id,所以如果它不起作用,因为id不好,在api上,我只需要放id,如果不是,那么链接上的错误到底是什么?如果id不是,那么它是什么?您不需要在视频id周围使用角括号 正确链接: 啊,好的,谢谢,不是身份证错了,谢谢。

Web scraping 将多个单元格拖动到特定网页,

我编写了一个代码,将单元格e6填充到网站类元素中,然后将一些值复制到单元格d6和c6中 代码工作得很好,但现在我希望检查完整的列 e7 valeus to d7 and c7 并继续,直到列中有一个空单元格 希望这是可以理解的,我是个荷兰人 以下是我的代码供参考: Sub RDWGEGEVENS() 'Declaration Dim ie As InternetExplorer Dim ieDoc As HTMLDocument 'Browser initializa

Web scraping 使用Julia从大量URL中删除字符串

新年快乐 我刚刚开始学习Julia,我给自己设置的第一个小挑战是从大量URL列表中获取数据 我有一个CSV文件中的CA50KURL(我使用正则表达式成功地从JSON解析了它)。我想刮取每个字符串并返回一个匹配的字符串(“/page/12345/view”-其中12345是任意整数) 我使用HTTP和Queryverse成功地做到了这一点(虽然从CSV和CSVFiles开始,但为了学习而查看包),但脚本似乎在不到2k时停止了。我看不到超时之类的错误 请问是否有人能告诉我我做错了什么,或者我如何以不

Web scraping 有没有办法从stack overflow下载所有问题和答案?

我对查看网站使用情况、问题类型和堆栈溢出的答案感兴趣。有没有办法下载所有内容 我曾考虑过使用beautiful soup或类似的工具进行网页抓取,但我认为有这么多专家用户,这些信息可以通过API随时获取 是的,正如您所猜测的,有一个JSON API,请检查 要通过示例获取所有问题,请执行以下操作: 它需要编程浏览器和JSON解析器。这很简单,用,或 评论中提出的另一个解决方案是解析一个,它不是汤,但确实很漂亮。谢谢更好的是,这里有一个完全的垃圾场

Web scraping Scrapy handle 301/302响应代码以及跟踪目标url

我正在使用scrapy版本1.0.5来实现一个爬虫程序。目前,我已经设置了REDIRECT\u ENABLED=False和handle\u httpstatus\u list=[500、301、302]来刮取包含301和302响应的页面。但是,由于REDIRECT\u ENABLED设置为False,因此爬行器不会转到位置响应标头中的目标url。如何实现这一点?这是一本很长的书,因为我做了类似的事情,但您需要生成一个带有url、meta和回调参数的请求对象 但我似乎记得,你可以按照以下思路来做

Web scraping Facebook搜索刮擦

我需要关于如何从搜索结果中保存Facebook数据的帮助 我有1000个查询URL,如: 如何快速从生成的网页中提取数据 我曾尝试过使用一些scraper程序,但无法让它们工作。有人有更快的方法吗?使用python请求库。它是一个纯粹而快速的图书馆。抓取速度不仅取决于您的代码,还取决于您正在抓取的网站。请告诉我们您尝试了哪些内容并取得了哪些成效。那我们可以帮你。

Web scraping Goutte/Symfony DOM爬虫从表单下载文件

远程页面中有一个表单,它在提交后会自动将特定文件下载到您的计算机。如何使用Goutte或本机Symfony DOM Crawler获取该文件并将其存储在服务器上 目前我有以下代码: $client = new Client(); $client->setHeader('user-agent', "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 S

Web scraping 删除电子商务网站并聚合相同的产品

我正在尝试学习网络抓取,作为一个应用程序,我想我应该构建一个聚合器,对零售商的某些产品进行爬网,并对不同零售商的相同产品进行价格比较 当我开始做这件事时,我确切地意识到这是一项多么艰巨的任务 首先,我需要抓取的网站不仅有不同的DOM结构格式,还有相同产品的名称和商品价格格式以及在售商品的价格格式 其次,在我以某种方式解码了x个站点的DOM之后(对一两个站点进行解码很容易,但我想使爬虫程序具有可伸缩性!),并获取了各种项目的数据。我需要能够比较相同产品的不同名称,以便比较零售商之间的不同价格(将其

Web scraping 任何人都可以用英语写下这个代码的确切含义:soup.find“u all”(“p”,class=“strikeout”)

我想用英语确切地理解这个代码的意思 我试过从beautifulsoup学习代码,我得到了提示,但我没有信心 soup.find_all("p", class_="strikeout") 代码显示查找所有的标签。。。还有我要翻译的东西 soup.find_all("p", class_="strikeout") 作为: 查找类等于删除线()的所有标记 您应该搜索文档()以确定类搜索是否严格,也就是说它是否匹配 <p class="strikeout foo"> 我来翻译 s

Web scraping 关于使用谷歌工作表浏览网页的指南

我试图使用导入XML从网页获取一些数据,但它告诉我“N/a导入的内容为空” 我尝试了另一个查询,但不起作用 =IMPORTXML("https://www.shein.com/Floral-Lace-Halter-Teddy-Bodysuit-p-699186-cat-1862.html","//div[@class='opt-size j-sa-select-size j-opt-size']") 我希望能够解析衣服的不同尺寸,即:XS、S、M、L等。谷歌表单不支持通过网页抓取JavaScr

Web scraping 如何将任何URL传递给APIFY任务?

APIFY中有一个配置“起始URL”的框,但是如果我不知道起始URL,并且取决于我的用户输入,会发生什么情况?我希望能够将变量URL传递给“开始URL” APIFY中开始URL的配置: 我想通过APIFY任务自动传递任何URL,然后放弃它 我尝试通过Zapier自动执行,在配置中可以选择URL输入并将其传递给APIFY,但最后它停止了任务,因为无法读取传递的格式。Zapier的数据输出日志: 我认为APIFY可能允许配置动态输入URL,但就我的初学者水平而言,可能有一些东西超越了我的知识 我

Web scraping 元整合数据

我正在一个项目中使用metascraper。我正在把海关规定传给承包商。它实际上是从页面上抓取实际内容。问题是,它似乎在查找与CSS选择器匹配的每个标记,并组合页面上每个标记的所有text()内容。我查看了metascraper网站和github,没有找到任何关于改变这种模式/行为的选项的信息。我确保每个scrap请求都会创建一个新的metascraper实例,以防它只是在对象的多个用途中使用相同的成员变量,但这似乎没有任何作用。有什么想法吗 编辑:此外,理想情况下,metascraper将返回

Web scraping requests.get不返回类似于浏览器的html';s开发工具

我正在使用beautifulsoup和请求来刮取网站,但我没有得到正确的html。 这就是我得到的(从头部移除了一些链接标签): 我做错了什么或根本没有做什么?尝试在您提出的请求中添加一个用户代理,例如: import requests headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:32.0) Gecko/20100101 Firefox/32.0'} r = requests.get('h

Web scraping Openrefine不会获取整个html代码

我一直在获取Wiley中的学术文章以收集作者信息,但获取的列并不包含所有代码 例如,如果我检查一个站点(例如),当有100多个span标记时,我获取的结果只有不到30个span标记。一些元标记也丢失了 我特别寻找元素,例如,带有引文作者和引文作者机构的元标记。您不能说是从该URL创建项目还是通过获取来添加列。对于后者,我使用OpenRefine 3.4.1获得403禁止。是否发送非默认标题?我可以向您保证,Refine会保留所有发送的内容,因此我希望了解网站可能没有发送您认为的内容的原因(例如,

Web scraping 是否有一种方法可以在网页中查找绘图数据?

我不是网络开发者,所以请容忍我 我知道有几个库可以在Javascript中绘制图形,但如何检查特定页面是否使用highchart或其他竞争对手 我希望在源代码中找到某种Json,但我如何才能找到它呢?诀窍是打开开发工具的“网络”选项卡,重新加载页面,然后搜索您想要获取的数据。这里我看到一个数字是21361.15,我搜索了它,发现JSON文件来自https://www.etoro.com/sapi/userstats/CopySim/Username/hyjbrighter/OneYearAgo

Web scraping 如何在每页显示100个以上的结果?

我想更改此页面上的结果数:https://fifatracker.net/players/到100多个,然后将表格导出到Excel,让我更轻松。我在一个教程之后尝试使用python来实现它,但我无法让它工作。如果有一种方法可以从所有页面中提取表,它也会对我有所帮助。如前所述,每个请求限制为100。只需迭代api上的查询负载即可获得每个页面: import pandas as pd import requests url = 'https://fifatracker.net/api/v1/pla

Web scraping 测序数据的Web抓取

对于我的项目工作,我必须从OneKP下载大量数据: 我必须提交一个类似ATMG00900的基因标识符,然后打开一个弹出窗口,在那里我可以下载带有同源序列的文件。我还可以提交一份基因标识符列表,并立即下载每个基因的同源序列 我现在的问题是,我必须在没有GUI和管理员权限的服务器上从linux终端执行所有这些操作,即将数据发布到特定字段并下载等效数据。我已经尝试使用curl-d和wget--post-data选项: curl-d accession=“ATMG00900”http://jlmwiki

Web scraping python scrapy:如何在爬行器中获取URL(而不是通过以下链接)?

我怎么能在我的蜘蛛里面有一些东西,可以通过HtmlXPathSelector获取一些URL来从页面中提取一些东西?但是URL是我想在代码中作为字符串提供的,而不是要遵循的链接 我试过这样的方法: req = urllib2.Request('http://www.example.com/' + some_string + '/') req.add_header('User-Agent', 'Mozilla/5.0') response = urllib2.urlopen(req) hxs = H

Web scraping 抓取雅虎集团数据

我需要从yahoo group导出数据,是否有任何API可以导出帖子数据,如成员列表、主题名称、主题作者、对该主题的总响应 没有,不幸的是,雅虎没有官方的API!小组

Web scraping 如何计算传奇联盟游戏中所有玩家的库存中目前有哪些物品

我有兴趣写一个程序,需要知道所有玩家当前在游戏中购买的所有物品。这些信息不需要实时更新,可以每隔几分钟更新一次。我能想到的最佳解决方案是输入一个屏幕截图,然后在图像中查找不同项目的图标 有没有更好的方式获取游戏信息 谢谢。好吧,你可以用Simba()这样的颜色机器人来实现基于屏幕截图的方法 但您也可以尝试使用WireShark来反转客户发送的口袋以识别物品 你也可以在游戏记忆中翻来覆去,但那可能是一种痛苦。Sweet。谢谢你的建议。我曾经考虑过WireShark,但正如你所说的,找到我正在寻找的

Web scraping 坚果的可能性

我是nutch新手,正在使用nutch 1.9。现在我正在一个示例站点(shaadi.com)上做一些POC。我有几个问题,有人能帮我吗 虽然我在httpclient-auth.xml、nutch-site.xml和所有文件中设置了配置,但我无法访问需要登录身份验证的URL(基于表单的) 我知道nutch只提供网站的全部内容。但是,是否可能只获得一条信息,如名字、地址等。。从网站页面使用nutch?(我认为这更像是刮……这是蟒蛇刮的动作) 提前感谢。您需要使用插件提取特定数据,并在索引时将这些数

Web scraping 如何从第三方网站捕获数据?

例如,我只想捕获此URL上显示的滚动信息的30个最新事件的数据: 知道如何捕捉它吗 你在用什么语言?在Java中,您可以使用以下内容获取页面HTML内容: URL url; InputStream is = null; BufferedReader br; String line; try { url = new URL("http://hazmat.globalincidentmap.com/home.php"); is = url.openStream(); // th

Web scraping 如何使用rvest进行刮伤?

我需要从本页获得三个不同的数字(黄色,见图): 我使用rvest和inspectorgadget使用此代码: site=read_html("https://www.scopus.com/authid/detail.uri?authorId=7006040753") hindex=site %>% html_node(".row3 .valueColumn span")%>% html_text() documents=site %>% html_node("#docCn

Web scraping 我如何从木偶演员夏普的h1标签中提取文本?

我的问题是: 我正试图将文本转换为con Puppeter Sharp,我想在控制台中显示该页面中的de h1标记文本。文本为“示例域” 我有以下代码: await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision); var browser = await Puppeteer.LaunchAsync(new LaunchOptions { Headles

Web scraping 从最初由jQuery填充的空表导入Google工作表中的数据

我想将数据从HTML页面(特别是)导入GoogleSheets页面。通常,这将通过使用IMPORTHTML(或者,以更为粗俗的方式,IMPORTXML或IMPORTDATA)来实现 我想从上的“玩家”选项卡获取表格内容。在我的工作表中,这应该像(使用|的分隔单元格) 但是当我运行IMPORTHTML(,“table”,2)时,我只得到最上面一行: Accepted Player | Team | Rank | Wins | Losses | In-progress 如果

Web scraping 隐藏内容的网页抓取

我正试图从这个网站上搜集价格数据: 但是,数据似乎不在页面的HTML代码中。检查时,数据似乎嵌套在标记中,例如,零售商名称的Caltex下,以及价格数据的多个嵌套标记下,我无法使用以下代码对其进行刮取(没有找到结果) 任何帮助都将不胜感激 import requests from bs4 import BeautifulSoup URL = 'https://fuelkaki.sg/home' page = requests.get(URL) soup = BeautifulSoup(pag

Web scraping 防止Web刮取

我目前是一个开发包含前端客户端的应用程序团队的一员 通过这个客户机,我们发送用户数据,每个用户都有一个用户id,客户机通过RESTful API向服务器询问数据 例如,假设我们有一个图书数据库,用户可以得到作者最后写的3本书。我们重视用户的时间,我们希望用户能够在没有明确注册的情况下开始使用该产品 我们重视我们的数据库,我们使用我们自己的专有软件来填充它,并希望尽可能地保护它 所以基本上问题是: 我们能做些什么来保护自己不被网络抓取 我非常想了解一些保护我们数据的技术,我们想防止用户在作者搜索面

Web scraping RSelenium web抓取始终返回Null

我是一个新的网页抓取,我试图垃圾的电影预算数据从IMDb。这是我的密码: budget=vector() for(i in 1:50){ remDr$navigate('http://www.imdb.com/search/title?sort=moviemeter,asc&start=1&title_type=feature&year=2011,2011') webElems=remDr$findElements('css selector','.wlb_lite+ a

Web scraping 解释robots.txt与使用条款

我对抓取craigslist感兴趣,仅仅是为了对博客文章进行数据分析(即,没有商业或财务收益,没有发布/发送电子邮件,没有个人数据收集,没有共享抓取的数据)。他们的robots.txt文件如下所示: User-agent: * Disallow: /reply Disallow: /fb/ Disallow: /suggest Disallow: /flag Disallow: /mf Disallow: /eaf 我不打算访问这些目录,只想查看帖子,然后从帖子正文中收集文本。在robots.

Web scraping 不同机器上的请求后编码不同

我在使用Scrapy方面相当有经验,但今天遇到了一个新问题,我不能完全解决。我正在尝试向返回Json数据的网站发送POST请求。当我在主服务器上运行脚本时,响应文本以utf-8编码,我能够将其加载到Json中,而不会出现任何问题 将相同的脚本(和相同的项目文件)移植到安装了所有必要依赖项的新服务器上,对响应进行编码,我很难将其解码为utf-8。关于哪些环境变量可能会影响这种差异,你有什么想法吗?你能添加一个反应的例子吗?反应可能不同吗?即使您的请求在其他方面是相同的,从两个不同的IP地址发送请求

Web scraping 如何在scrapy spider运行时获取新的令牌头

我正在运行一个scrapy spider,它首先使用基本请求库从我正在刮取的网站获取授权令牌。用于此操作的函数称为get_security_token()。此令牌作为标头传递给scrapy请求。问题是令牌在300秒后过期,然后我得到一个401错误。蜘蛛是否会看到401错误,再次运行get\u security\u token()函数,然后将新的令牌传递给所有未来的请求头 import scrapy class PlayerSpider(scrapy.Spider): name = 'playe

Web scraping Apify页面功能修改

前面介绍了下面的页面功能 FX: $('span[class="enhanced-table-cell-api"]').text() 已在上的apify/web scraper actor上正常工作很长时间 目前(我现在有办法获得9月8日之前的早期版本),以下html/DOM inspector摘录为: <span class="enhanced-table-cell-api" data-api=""> <di

Web scraping 刮痧:规则';使用自定义下载中间件时未调用回调

我使用的是下载中间件,而不是默认的Scrapy downloader,同时我还尝试使用CrawSpider 下载中间件通过真实浏览器请求页面,因此直接从process\u request返回响应,类似于以下代码片段: def进程请求(self、request、spider): 浏览器\ api.打开\页面(request.url) 浏览器\u api。等待\u页面\u加载() 返回HtmlResponse( 浏览器\ api.当前\ url(), body=browser\u api.get\u

Web scraping 在不手动获取页数的情况下刮取多页

我们目前正忙于一个属性web刮取,并试图在不手动获取页面范围的情况下刮取多个页面(共有5个页面) 对于范围(0,5)中的num: url=”https://www.property24.com/for-sale/woodland-hills-wildlife-estate/bloemfontein/free-state/10467/p“+str(num) 如何在不手动键入页面范围的情况下输出所有页面的URL 输出 可能使用ul class=“pagination”来计算页码?您可以使用pag

  1    2   3   4   5   6  ... 下一页 最后一页 共 29 页