Python SCRAPY：每次我的蜘蛛爬行，它都在刮同一页（第一页）_Python_Python 3.x_Web Scraping_Scrapy

Python SCRAPY：每次我的蜘蛛爬行，它都在刮同一页（第一页）

python python-3.x web-scraping scrapy

Python SCRAPY：每次我的蜘蛛爬行，它都在刮同一页（第一页）,python,python-3.x,web-scraping,scrapy,Python,Python 3.x,Web Scraping,Scrapy,我已经编写了一段代码，在Python中使用Scrapy浏览页面。下面我已经粘贴了main.py代码。但是，每当我运行spider时，它只从第一页（DEBUG:Scraped-from）进行刮取，这也是请求头中的引用（检查时）我尝试添加“请求有效负载”字段数据的源，粘贴在这里：{“操作”：“加载列表”，“跳过”：64，“过滤器”：{“1005”：[]，“1006”：[]，“1007”：[]，“1009”：[]，“1013”：[]}，当我试图用它打开页面时（在本查找中修改：；“操作”：“加载列表

我已经编写了一段代码，在Python中使用Scrapy浏览页面。下面我已经粘贴了main.py代码。但是，每当我运行spider时，它只从第一页（DEBUG:Scraped-from）进行刮取，这也是请求头中的引用（检查时）
我尝试添加“请求有效负载”字段数据的源，粘贴在这里：{“操作”：“加载列表”，“跳过”：64，“过滤器”：{“1005”：[]，“1006”：[]，“1007”：[]，“1009”：[]，“1013”：[]}，当我试图用它打开页面时（在本查找中修改：
；“操作”：“加载列表”；“跳过”：“32”；“排序”：“无”
)，浏览器将打开它。但粘乎乎的壳却没有。我还尝试添加请求URL:中的数字，其中查询字符串参数为1563872492384；但它仍然无法从请求的页面中删除
此外，我尝试了很多变化，添加了很多东西，所有这些我都在网上读过，只是为了看看是否会有进展，但没有
代码是：

from scrapy.spiders import CrawlSpider from tus_pomos.items import TusPomosItem from tus_pomos.scrapy_splash import SplashRequest class TusPomosSpider(CrawlSpider): name = 'TUSP' allowed_domains = ['www.tuscc.si'] start_urls = ["https://www.tuscc.si/produkti/instant-juhe#0;1563872492384;", "https://www.tuscc.si/produkti/instant-juhe#64;1563872492384;", ] download_delay = 5.0 def start_requests(self): # payload = [ # {"action": "loadList", # "skip": 0, # "filter": { # "1005": [], # "1006": [], # "1007": [], # "1009": [], # "1013": []} # }] for url in self.start_urls: r = SplashRequest(url, self.parse, magic_response=False, dont_filter=True, endpoint='render.json', meta={ 'original_url': url, 'dont_redirect': True}, args={ 'wait': 2, 'html': 1 }) r.meta['dont_redirect'] = True yield r def parse(self, response): items = TusPomosItem() pro = response.css(".thumb-box") for p in pro: pro_link = p.css("a::attr(href)").extract_first() pro_name = p.css(".description::text").extract_first() items['pro_link'] = pro_link items['pro_name'] = pro_name yield items
总之，我请求从分页中抓取所有页面，例如此页面（我还尝试使用命令scrapy shell url）：
)
但响应始终是第一页，并且它会反复地删除：

如果你能帮助我，我将不胜感激。谢谢

PARSE_DETAILS生成器函数

def parse_detail(self, response): items = TusPomosItem() pro = response.css(".thumb-box") for p in pro: pro_link = p.css("a::attr(href)").extract_first() pro_name = p.css(".description::text").extract_first() items['pro_link'] = pro_link items['pro_name'] = pro_name my_details = { 'pro_link': pro_link, 'pro_name': pro_name } with open('pro_file.json', 'w') as json_file: json.dump(my_details, json_file) yield items # yield scrapy.FormRequest( # url='https://www.tuscc.si/produkti/instant-juhe', # callback=self.parse_detail, # method='POST', # headers=self.headers # )
在这里，我不确定我是应该按原样分配“items”变量，还是从response.body中获取？另外，收益率应该是现在的样子，还是我应该通过请求来改变它（而不是部分地被给出的答案代码复制）

我是新来的，所以感谢您的理解！
与其使用Splash来呈现页面，不如从所做的底层请求中获取数据，这样可能会更高效。下面的代码遍历了所有包含文章的页面。在parse_detail下，您可以编写逻辑将响应中的数据加载到json中，在json中可以找到产品的“pro_链接”和“pro_名称”

import scrapy import json from scrapy.spiders import Spider from ..items import TusPomosItem class TusPomosSpider(Spider): name = 'TUSP' allowed_domains = ['tuscc.si'] start_urls = ["https://www.tuscc.si/produkti/instant-juhe"] download_delay = 5.0 headers = { 'Origin': 'https://www.tuscc.si', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'en-GB,en;q=0.9,nl-BE;q=0.8,nl;q=0.7,ro-RO;q=0.6,ro;q=0.5,en-US;q=0.4', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36', 'Content-Type': 'application/json; charset=UTF-8', 'Accept': 'application/json, text/javascript, */*; q=0.01', 'X-Requested-With': 'XMLHttpRequest', 'Connection': 'keep-alive', 'Referer': 'https://www.tuscc.si/produkti/instant-juhe', } def parse(self, response): number_of_pages = int(response.xpath( '//*[@class="paginationHolder"]//@data-size').extract_first()) number_per_page = int(response.xpath( '//*[@name="pageSize"]/*[@selected="selected"]/text()').extract_first()) for page_number in range(0, number_of_pages): skip = number_per_page * page_number data = {"action": "loadList", "filter": {"1005": [], "1006": [], "1007": [], "1009": [], "1013": []}, "skip": str(skip), "sort": "none" } yield scrapy.Request( url='https://www.tuscc.si/produkti/instant-juhe', callback=self.parse_detail, method='POST', body=json.dumps(data), headers=self.headers ) def parse_detail(self, response): detail_page = json.loads(response.text) for product in detail_page['docs']: item = TusPomosItem() item['pro_link'] = product['url'] item['pro_name'] = product['title'] yield item

这是分页的一个很棒的xpath示例。我已经导入了它，并编写了parse details函数。但是我得到的输出是spider刚刚爬网，没有爬网。这里是2019-07-23 16:13:29[scrapy.core.engine]调试：爬网（200）（referer:None）2019-07-23 16:13:35[scrapy.core.engine]调试：爬网（200）（推荐人：无）在那之后，8个重复的带有url的referer最好用包含的解析详细信息编辑您的问题，或者打开一个新问题，这样我们可以检查我将编辑问题，另外添加解析详细信息编辑我的回复，以显示如何在页面上获得产品的url和标题，希望它能帮助您ps，非常感谢。同时，如果你被介绍，你能回答我吗，我能从整个网站获得所有的请求有效载荷吗？