Web Scraping_IT技术博客_编程技术问答

Web scraping 使用python mechanize登录网站

标签： Web Scraping

我正在使用python mechanize登录社交网站。我遇到了一个错误： HTTP错误403:robots.txt不允许请求这是我的简单代码 import urllib import re import mechanize browser=mechanize.Browser() browser.open("https://www.pinterest.com/login/") browser.select_form(nr=0) browser.form['username_or_email']

Web scraping &；nbsp；当使用BeautifulSoup刮取网页时，类会重新生成

标签： Web Scraping beautifulsouphidden-field

我试图从网站中提取定价数据，但每次加载页面时，类都会重新生成为不同的字母序列，并且价格显示的是，而不是数字。有没有一种技术可以让我以任何方式绕过这个问题？谢谢以下是检查元素时显示的html行： <div class="zlgJQq">$</div> <div class="qFwqmC hkVukg2 njGalW"> </div> $ 非常感谢您的帮助也许该网站正在积极劝阻您删除他们的数据。这就解释了明显随机的类名

Web scraping 当登录页面是GET方法而不是POST方法时，如何使用scrapy spider登录？

标签： Web Scraping Login request Scrapy

我计划用一个刮擦蜘蛛登录。登录页面是一个GET请求方法如您所见，这是一个GET方法，没有为id和passeword显示任何属性但是在HTML代码中，有一个链接（当用户在我的浏览器的url栏中写入它时，它不起作用），它表示一个POST方法method=“POST”。但当我登录时，浏览器控制台的网络中没有显示POST文件然后怎么办？看起来是POST，POST变量\u username和\u password正在发送：（当我点击右侧面板中的“编辑并重新发送”时，Firefox的屏幕盖）

Web scraping 使用谷歌搜索API访问谷歌增强事件结果的方法？

标签： Web Scraping google-searchgoogle-search-apigoogle-search-platform

我正在努力实现谷歌搜索特定区域事件的自动化。当手动搜索事件时，例如“洛杉矶演唱会”，有一种称为“事件”的迷人的丰富结果形式，其特征是结构化数据，如日期、事件标题、主持人等我想自动搜索这些事件，但无法找到允许抓取这些事件块的API或站点。是否有一个谷歌搜索关键字或其他方法，我可以隔离这些事件

Web scraping 如何遵循javascript:GO（123456）hrefs在浏览网页时访问新URL？

标签： Web Scraping Scrapy

我正在尝试创建一个webscraper来解析不同的网球比赛，并尝试通过href链接访问每场比赛的更多信息页面。我目前正在使用Scrapy，以前也做过类似的工作，但通常在href标记下，我会发现实际的URL可以简单地跟随。现在，我发现类似的事情，并且很难弄清楚如何使刮板遵循这一点我发现很多网站都在贬低Scrapy，以及它在javascript中的效果如何，并且已经开始关注Selenium的潜在解决方案，我对Selenium是非常陌生的。问题是，这些都没有做我需要做的事情，除非他们在一个非常高的层

Web scraping 如何修复python在.csv文档中返回多行而不是一行的问题？

标签： Web Scraping beautifulsoup Jupyter Notebook urllib

我试图从一个学校项目的公共论坛中收集数据，但每次运行代码时，生成的.csv文件都会显示文本变量的多行，而不是一行从bs4进口美汤作为汤从urllib.request导入urlopen作为uReq 我的https://www.emimino.cz/diskuse/1ivf-repromeda-56566/' uClient=uReq（我的url） page_soup=soup（uClient.read（），“html.parser”） uClient.close（） containers=p

Web scraping 我什么时候必须设置标题？如何获取标题？

标签： Web Scraping Scrapy header

我正试图从www.blogabet.com上抓取一些信息与此同时，我正在udemy参加一个关于网络绘画的课程。我参加的课程的作者已经给了我问题的答案。然而，我不完全理解为什么我必须采取他提到的具体步骤。你可以在下面找到他的密码我在问自己： 1.对于哪些网站，我必须使用标题？ 2.如何获取必须在标题中提供的信息？ 3.如何获取他获取的url？基本上，我只是想取：非常感谢：）如果在加载该页面时查看网络面板，可以看到XHR及其发送的标题看来他只是复制了这些通常，您可以跳过除用户代理之外的

Web scraping 如何拥有多个上下文选择器？

标签： Web Scraping css-selectors

我现在正在做围巾我当前的很多代码都是这样的 contextSelector = 'a[href^="/clubs-and-societies/academic/'; （本工程）但是，要选择多个页面，使用多个上下文选择器不起作用 contextSelector = 'a[href^="/clubs-and-societies/academic/'; contextSelector = 'a[href^="/clubs-and-societies/culture/'; co

Web scraping 为什么我不能用scrapy将数据导入csv？

标签： Web Scraping Scrapy scrapy-shell

我想刮一个交易网站与刮包，我做所有的设置。当我写作时 scrapy runspider exp.py-o exp1.csv 它会刮取，但不会显示在csv文件中。有什么问题吗？我更正了204对200的回复，站点没有准备javascriptscrapy crawl spidername-o csvname.csvif如果您仍然有问题，您可以添加更多详细信息吗？你得到的回溯？PS:scrapy将在内存中存储这么多记录，然后一次将它们全部转储到CSV。因此，不要期望项目立即显示在csv中。

Web scraping 使用BeautifulSoup--Python刮表

标签： Web Scraping beautifulsoup

我正试图从这个网站上抓取一张桌子：我正在使用以下代码： import requests from bs4 import BeautifulSoup URL = 'https://covidactnow.org/state/CA' page = requests.get(URL) soup = BeautifulSoup(page.content, 'html.parser') soup.find_all('tr') 我认为代码应该找到该表，但它返回一个空列表。@KunduK是正确的。你

Web scraping Jsoup解析Youtbue页面

标签： Web Scraping jsoup

我正在使用Jsoup解析YouTube的页面，但我得到的内容和我从浏览器得到的不一样代码我从Jsoup获得的内容，body以 <iframe src="https://accounts.google.com/ServiceLogin?uilel=3&service=youtube&passive=true&continue=https%3A%2F%2Fwww.youtube.com%2Fsignin%3Faction_handle_s

Web scraping 如何获取youtube视频id

标签： Web Scraping Youtube

我认为视频的视频id是在watch？v之后的内容，因此对于视频，请再次参见RgKAFK5djSk 但是当我使用这个API来查找视频的缩略图时，它不起作用 http://img.youtube.com/vi//maxresdefault.jpg在这个论坛上，他们说只放视频id，所以如果它不起作用，因为id不好，在api上，我只需要放id，如果不是，那么链接上的错误到底是什么？如果id不是，那么它是什么？您不需要在视频id周围使用角括号正确链接：啊，好的，谢谢，不是身份证错了，谢谢。

Web scraping 将多个单元格拖动到特定网页，

标签： Web Scraping

我编写了一个代码，将单元格e6填充到网站类元素中，然后将一些值复制到单元格d6和c6中代码工作得很好，但现在我希望检查完整的列 e7 valeus to d7 and c7 并继续，直到列中有一个空单元格希望这是可以理解的，我是个荷兰人以下是我的代码供参考： Sub RDWGEGEVENS() 'Declaration Dim ie As InternetExplorer Dim ieDoc As HTMLDocument 'Browser initializa

Web scraping 使用Julia从大量URL中删除字符串

标签： Web Scraping Julia

新年快乐我刚刚开始学习Julia，我给自己设置的第一个小挑战是从大量URL列表中获取数据我有一个CSV文件中的CA50KURL（我使用正则表达式成功地从JSON解析了它）。我想刮取每个字符串并返回一个匹配的字符串（“/page/12345/view”-其中12345是任意整数）我使用HTTP和Queryverse成功地做到了这一点（虽然从CSV和CSVFiles开始，但为了学习而查看包），但脚本似乎在不到2k时停止了。我看不到超时之类的错误请问是否有人能告诉我我做错了什么，或者我如何以不

Web scraping 有没有办法从stack overflow下载所有问题和答案？

标签： Web Scraping information-extraction Perl Python Ruby

我对查看网站使用情况、问题类型和堆栈溢出的答案感兴趣。有没有办法下载所有内容我曾考虑过使用beautiful soup或类似的工具进行网页抓取，但我认为有这么多专家用户，这些信息可以通过API随时获取是的，正如您所猜测的，有一个JSON API，请检查要通过示例获取所有问题，请执行以下操作：它需要编程浏览器和JSON解析器。这很简单，用，或评论中提出的另一个解决方案是解析一个，它不是汤，但确实很漂亮。谢谢更好的是，这里有一个完全的垃圾场

Web scraping Jaunt Webcrawler API没有'；不能正确处理相对URL

标签： Web Scraping Web Crawler jaunt-api

我实现了一个爬虫程序，它可以执行以下操作： repeat Visit each page and get all links that have not been visited. until no new links 它正在爬行的页面是我得到的所有链接如下： <a href="produtos.php?id_sub=104&fruta-nacional" class="new_sub_menu"> Fr

Web scraping Scrapy handle 301/302响应代码以及跟踪目标url

标签： Web Scraping Scrapy scrapy-spider

我正在使用scrapy版本1.0.5来实现一个爬虫程序。目前，我已经设置了REDIRECT\u ENABLED=False和handle\u httpstatus\u list=[500、301、302]来刮取包含301和302响应的页面。但是，由于REDIRECT\u ENABLED设置为False，因此爬行器不会转到位置响应标头中的目标url。如何实现这一点？这是一本很长的书，因为我做了类似的事情，但您需要生成一个带有url、meta和回调参数的请求对象但我似乎记得，你可以按照以下思路来做

Web scraping Facebook搜索刮擦

标签： Web Scraping

我需要关于如何从搜索结果中保存Facebook数据的帮助我有1000个查询URL，如：如何快速从生成的网页中提取数据我曾尝试过使用一些scraper程序，但无法让它们工作。有人有更快的方法吗？使用python请求库。它是一个纯粹而快速的图书馆。抓取速度不仅取决于您的代码，还取决于您正在抓取的网站。请告诉我们您尝试了哪些内容并取得了哪些成效。那我们可以帮你。

Web scraping Goutte/Symfony DOM爬虫从表单下载文件

标签： Web Scraping Web Crawler screen-scrapinggouttedomcrawler

远程页面中有一个表单，它在提交后会自动将特定文件下载到您的计算机。如何使用Goutte或本机Symfony DOM Crawler获取该文件并将其存储在服务器上目前我有以下代码： $client = new Client(); $client->setHeader('user-agent', "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 S

Web scraping 删除电子商务网站并聚合相同的产品

标签： Web Scraping Scrapy fuzzy-comparison

我正在尝试学习网络抓取，作为一个应用程序，我想我应该构建一个聚合器，对零售商的某些产品进行爬网，并对不同零售商的相同产品进行价格比较当我开始做这件事时，我确切地意识到这是一项多么艰巨的任务首先，我需要抓取的网站不仅有不同的DOM结构格式，还有相同产品的名称和商品价格格式以及在售商品的价格格式其次，在我以某种方式解码了x个站点的DOM之后（对一两个站点进行解码很容易，但我想使爬虫程序具有可伸缩性！），并获取了各种项目的数据。我需要能够比较相同产品的不同名称，以便比较零售商之间的不同价格（将其

Web scraping 任何人都可以用英语写下这个代码的确切含义：soup.find“u all”（“p”，class=“strikeout”）

标签： Web Scraping

我想用英语确切地理解这个代码的意思我试过从beautifulsoup学习代码，我得到了提示，但我没有信心 soup.find_all("p", class_="strikeout") 代码显示查找所有的标签。。。还有我要翻译的东西 soup.find_all("p", class_="strikeout") 作为：查找类等于删除线（）的所有标记您应该搜索文档（）以确定类搜索是否严格，也就是说它是否匹配 <p class="strikeout foo"> 我来翻译 s

Web scraping 关于使用谷歌工作表浏览网页的指南

标签： Web Scraping Xpath Google Sheets google-sheets-formula

我试图使用导入XML从网页获取一些数据，但它告诉我“N/a导入的内容为空” 我尝试了另一个查询，但不起作用 =IMPORTXML("https://www.shein.com/Floral-Lace-Halter-Teddy-Bodysuit-p-699186-cat-1862.html","//div[@class='opt-size j-sa-select-size j-opt-size']") 我希望能够解析衣服的不同尺寸，即：XS、S、M、L等。谷歌表单不支持通过网页抓取JavaScr

Web scraping 如何将任何URL传递给APIFY任务？

标签： Web Scraping zapierapify

APIFY中有一个配置“起始URL”的框，但是如果我不知道起始URL，并且取决于我的用户输入，会发生什么情况？我希望能够将变量URL传递给“开始URL” APIFY中开始URL的配置：我想通过APIFY任务自动传递任何URL，然后放弃它我尝试通过Zapier自动执行，在配置中可以选择URL输入并将其传递给APIFY，但最后它停止了任务，因为无法读取传递的格式。Zapier的数据输出日志：我认为APIFY可能允许配置动态输入URL，但就我的初学者水平而言，可能有一些东西超越了我的知识我

Web scraping 元整合数据

标签： Web Scraping css-selectors Web Crawler

我正在一个项目中使用metascraper。我正在把海关规定传给承包商。它实际上是从页面上抓取实际内容。问题是，它似乎在查找与CSS选择器匹配的每个标记，并组合页面上每个标记的所有text（）内容。我查看了metascraper网站和github，没有找到任何关于改变这种模式/行为的选项的信息。我确保每个scrap请求都会创建一个新的metascraper实例，以防它只是在对象的多个用途中使用相同的成员变量，但这似乎没有任何作用。有什么想法吗编辑：此外，理想情况下，metascraper将返回

Web scraping requests.get不返回类似于浏览器的html'；s开发工具

标签： Web Scraping beautifulsouppython-requests

我正在使用beautifulsoup和请求来刮取网站，但我没有得到正确的html。这就是我得到的（从头部移除了一些链接标签）：我做错了什么或根本没有做什么？尝试在您提出的请求中添加一个用户代理，例如： import requests headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:32.0) Gecko/20100101 Firefox/32.0'} r = requests.get('h

Web scraping Openrefine不会获取整个html代码

标签： Web Scraping openrefinegrel

我一直在获取Wiley中的学术文章以收集作者信息，但获取的列并不包含所有代码例如，如果我检查一个站点（例如），当有100多个span标记时，我获取的结果只有不到30个span标记。一些元标记也丢失了我特别寻找元素，例如，带有引文作者和引文作者机构的元标记。您不能说是从该URL创建项目还是通过获取来添加列。对于后者，我使用OpenRefine 3.4.1获得403禁止。是否发送非默认标题？我可以向您保证，Refine会保留所有发送的内容，因此我希望了解网站可能没有发送您认为的内容的原因（例如，

Web scraping 是否有一种方法可以在网页中查找绘图数据？

标签： Web Scraping Charts Highcharts

我不是网络开发者，所以请容忍我我知道有几个库可以在Javascript中绘制图形，但如何检查特定页面是否使用highchart或其他竞争对手我希望在源代码中找到某种Json，但我如何才能找到它呢？诀窍是打开开发工具的“网络”选项卡，重新加载页面，然后搜索您想要获取的数据。这里我看到一个数字是21361.15，我搜索了它，发现JSON文件来自https://www.etoro.com/sapi/userstats/CopySim/Username/hyjbrighter/OneYearAgo

Web scraping 如何在每页显示100个以上的结果？

标签： Web Scraping

我想更改此页面上的结果数：https://fifatracker.net/players/到100多个，然后将表格导出到Excel，让我更轻松。我在一个教程之后尝试使用python来实现它，但我无法让它工作。如果有一种方法可以从所有页面中提取表，它也会对我有所帮助。如前所述，每个请求限制为100。只需迭代api上的查询负载即可获得每个页面： import pandas as pd import requests url = 'https://fifatracker.net/api/v1/pla

Web scraping 测序数据的Web抓取

标签： Web Scraping Server Terminal

对于我的项目工作，我必须从OneKP下载大量数据：我必须提交一个类似ATMG00900的基因标识符，然后打开一个弹出窗口，在那里我可以下载带有同源序列的文件。我还可以提交一份基因标识符列表，并立即下载每个基因的同源序列我现在的问题是，我必须在没有GUI和管理员权限的服务器上从linux终端执行所有这些操作，即将数据发布到特定字段并下载等效数据。我已经尝试使用curl-d和wget--post-data选项： curl-d accession=“ATMG00900”http://jlmwiki

Web scraping python scrapy：如何在爬行器中获取URL（而不是通过以下链接）？

标签： Web Scraping Scrapy

我怎么能在我的蜘蛛里面有一些东西，可以通过HtmlXPathSelector获取一些URL来从页面中提取一些东西？但是URL是我想在代码中作为字符串提供的，而不是要遵循的链接我试过这样的方法： req = urllib2.Request('http://www.example.com/' + some_string + '/') req.add_header('User-Agent', 'Mozilla/5.0') response = urllib2.urlopen(req) hxs = H

Web scraping 抓取雅虎集团数据

标签： Web Scraping yahoo-api

我需要从yahoo group导出数据，是否有任何API可以导出帖子数据，如成员列表、主题名称、主题作者、对该主题的总响应没有，不幸的是，雅虎没有官方的API！小组

Web scraping 如何计算传奇联盟游戏中所有玩家的库存中目前有哪些物品

标签： Web Scraping data-retrieval

我有兴趣写一个程序，需要知道所有玩家当前在游戏中购买的所有物品。这些信息不需要实时更新，可以每隔几分钟更新一次。我能想到的最佳解决方案是输入一个屏幕截图，然后在图像中查找不同项目的图标有没有更好的方式获取游戏信息谢谢。好吧，你可以用Simba（）这样的颜色机器人来实现基于屏幕截图的方法但您也可以尝试使用WireShark来反转客户发送的口袋以识别物品你也可以在游戏记忆中翻来覆去，但那可能是一种痛苦。Sweet。谢谢你的建议。我曾经考虑过WireShark，但正如你所说的，找到我正在寻找的

Web scraping 坚果的可能性

标签： Web Scraping Web Crawler nutch

我是nutch新手，正在使用nutch 1.9。现在我正在一个示例站点（shaadi.com）上做一些POC。我有几个问题，有人能帮我吗虽然我在httpclient-auth.xml、nutch-site.xml和所有文件中设置了配置，但我无法访问需要登录身份验证的URL（基于表单的）我知道nutch只提供网站的全部内容。但是，是否可能只获得一条信息，如名字、地址等。。从网站页面使用nutch？（我认为这更像是刮……这是蟒蛇刮的动作）提前感谢。您需要使用插件提取特定数据，并在索引时将这些数

Web scraping 如何从第三方网站捕获数据？

标签： Web Scraping capture

例如，我只想捕获此URL上显示的滚动信息的30个最新事件的数据：知道如何捕捉它吗你在用什么语言？在Java中，您可以使用以下内容获取页面HTML内容： URL url; InputStream is = null; BufferedReader br; String line; try { url = new URL("http://hazmat.globalincidentmap.com/home.php"); is = url.openStream(); // th

Web scraping Import.io从Post请求中提取数据

标签： Web Scraping import.io

当提交POST请求时，返回部分网页作为响应数据的网站。我尝试将URL粘贴到提取器中，但它没有返回任何数据。有没有办法从POST响应中提取数据

Web scraping 如何使用rvest进行刮伤？

标签： Web Scraping rvest

我需要从本页获得三个不同的数字（黄色，见图）：我使用rvest和inspectorgadget使用此代码： site=read_html("https://www.scopus.com/authid/detail.uri?authorId=7006040753") hindex=site %>% html_node(".row3 .valueColumn span")%>% html_text() documents=site %>% html_node("#docCn

Web scraping 谷歌工作表中的importdata给定值错误？

标签： Web Scraping Google Sheets google-sheets-formulaarray-formulas

我试图通过importdata获取数据，但出错。请帮我做这件事 =ARRAYFORMULA(IMPORTDATA(E2,"//div[@class='sum-data']")) 错误看起来应该使用IMPORTXML而不是IMPORTDATA来获取数据 =IMPORTXML(E2,"//div[@class='sum-data']") =IMPORTXML(E2,"//div[@class='sum-data']")

Web scraping 我如何从木偶演员夏普的h1标签中提取文本？

标签： Web Scraping puppeteersharp

我的问题是：我正试图将文本转换为con Puppeter Sharp，我想在控制台中显示该页面中的de h1标记文本。文本为“示例域” 我有以下代码： await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision); var browser = await Puppeteer.LaunchAsync(new LaunchOptions { Headles

Web scraping 从最初由jQuery填充的空表导入Google工作表中的数据

标签： Web Scraping Google Sheets Google Chrome Devtools google-sheets-formulafirefox-developer-tools

Web scraping 隐藏内容的网页抓取

标签： Web Scraping

我正试图从这个网站上搜集价格数据：但是，数据似乎不在页面的HTML代码中。检查时，数据似乎嵌套在标记中，例如，零售商名称的Caltex下，以及价格数据的多个嵌套标记下，我无法使用以下代码对其进行刮取（没有找到结果）任何帮助都将不胜感激 import requests from bs4 import BeautifulSoup URL = 'https://fuelkaki.sg/home' page = requests.get(URL) soup = BeautifulSoup(pag

Web scraping 属性错误：'；非类型'；对象没有属性'；css'；。正在尝试刮除旧reddit，但遇到此错误

标签： Web Scraping Scrapy reddit

我正在尝试刮除，但每次我都会出现以下错误： >>> response.css('div') Traceback (most recent call last): File "<console>", line 1, in <module> AttributeError: 'NoneType' object has no attribute 'css' >response.css（'div'））回溯（最近一次呼叫最后一次）：文

Web scraping 防止Web刮取

标签： Web Scraping data-collection

我目前是一个开发包含前端客户端的应用程序团队的一员通过这个客户机，我们发送用户数据，每个用户都有一个用户id，客户机通过RESTful API向服务器询问数据例如，假设我们有一个图书数据库，用户可以得到作者最后写的3本书。我们重视用户的时间，我们希望用户能够在没有明确注册的情况下开始使用该产品我们重视我们的数据库，我们使用我们自己的专有软件来填充它，并希望尽可能地保护它所以基本上问题是：我们能做些什么来保护自己不被网络抓取我非常想了解一些保护我们数据的技术，我们想防止用户在作者搜索面

Web scraping RSelenium web抓取始终返回Null

标签： Web Scraping imdbrselenium

我是一个新的网页抓取，我试图垃圾的电影预算数据从IMDb。这是我的密码： budget=vector() for(i in 1:50){ remDr$navigate('http://www.imdb.com/search/title?sort=moviemeter,asc&start=1&title_type=feature&year=2011,2011') webElems=remDr$findElements('css selector','.wlb_lite+ a

Web scraping 使用urllib2抓取谷歌搜索结果时收集了哪些信息

标签： Web Scraping urllib2google-search

在这里搜刮菜鸟。我正在尝试使用urllib2和beautifulsoup来抓取谷歌搜索结果，如下所示 domain_to_filter = 'www.google.com' opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] for start in range(start_page, (start_page + pages)): url = "http://www.go

Web scraping 解释robots.txt与使用条款

标签： Web Scraping Web Crawler robots.txtdata-sciencecraigslist

我对抓取craigslist感兴趣，仅仅是为了对博客文章进行数据分析（即，没有商业或财务收益，没有发布/发送电子邮件，没有个人数据收集，没有共享抓取的数据）。他们的robots.txt文件如下所示： User-agent: * Disallow: /reply Disallow: /fb/ Disallow: /suggest Disallow: /flag Disallow: /mf Disallow: /eaf 我不打算访问这些目录，只想查看帖子，然后从帖子正文中收集文本。在robots.

Web scraping 不同机器上的请求后编码不同

标签： Web Scraping Scrapy scrapyd

我在使用Scrapy方面相当有经验，但今天遇到了一个新问题，我不能完全解决。我正在尝试向返回Json数据的网站发送POST请求。当我在主服务器上运行脚本时，响应文本以utf-8编码，我能够将其加载到Json中，而不会出现任何问题将相同的脚本（和相同的项目文件）移植到安装了所有必要依赖项的新服务器上，对响应进行编码，我很难将其解码为utf-8。关于哪些环境变量可能会影响这种差异，你有什么想法吗？你能添加一个反应的例子吗？反应可能不同吗？即使您的请求在其他方面是相同的，从两个不同的IP地址发送请求

Web scraping 如何在scrapy spider运行时获取新的令牌头

标签： Web Scraping Scrapy scrapy-middleware

我正在运行一个scrapy spider，它首先使用基本请求库从我正在刮取的网站获取授权令牌。用于此操作的函数称为get_security_token（）。此令牌作为标头传递给scrapy请求。问题是令牌在300秒后过期，然后我得到一个401错误。蜘蛛是否会看到401错误，再次运行get\u security\u token（）函数，然后将新的令牌传递给所有未来的请求头 import scrapy class PlayerSpider(scrapy.Spider): name = 'playe

Web scraping Apify页面功能修改

标签： Web Scraping apify

前面介绍了下面的页面功能 FX: $('span[class="enhanced-table-cell-api"]').text() 已在上的apify/web scraper actor上正常工作很长时间目前（我现在有办法获得9月8日之前的早期版本），以下html/DOM inspector摘录为： <span class="enhanced-table-cell-api" data-api=""> <di

Web scraping 刮痧：规则'；使用自定义下载中间件时未调用回调

标签： Web Scraping Scrapy

我使用的是下载中间件，而不是默认的Scrapy downloader，同时我还尝试使用CrawSpider 下载中间件通过真实浏览器请求页面，因此直接从process\u request返回响应，类似于以下代码片段： def进程请求（self、request、spider）：浏览器\ api.打开\页面（request.url）浏览器\u api。等待\u页面\u加载（）返回HtmlResponse( 浏览器\ api.当前\ url（）， body=browser\u api.get\u

Web scraping 在不手动获取页数的情况下刮取多页

标签： Web Scraping beautifulsoup

我们目前正忙于一个属性web刮取，并试图在不手动获取页面范围的情况下刮取多个页面（共有5个页面）对于范围（0,5）中的num: url=”https://www.property24.com/for-sale/woodland-hills-wildlife-estate/bloemfontein/free-state/10467/p“+str（num）如何在不手动键入页面范围的情况下输出所有页面的URL 输出可能使用ul class=“pagination”来计算页码？您可以使用pag