Python 我的痒蜘蛛罐'；t从下一页提取数据_Python_Web Scraping_Pagination_Scrapy - Fatal编程技术网

Python 我的痒蜘蛛罐'；t从下一页提取数据

python web-scraping pagination scrapy

Python 我的痒蜘蛛罐'；t从下一页提取数据,python,web-scraping,pagination,scrapy,Python,Web Scraping,Pagination,Scrapy,因此，我被要求从一个网站上抓取所有的工作细节，但是我的蜘蛛成功地获得了下一页的链接，但只提取了第一页的数据这是我的蜘蛛： name = 'jobs' allowed_domains = ['www.tanitjobs.com/jobs'] start_urls = ['https://www.tanitjobs.com/jobs'] def parse(self, response): pass all_jobs = response.css(".listing-item_

因此，我被要求从一个网站上抓取所有的工作细节，但是我的蜘蛛成功地获得了下一页的链接，但只提取了第一页的数据
这是我的蜘蛛：

name = 'jobs'
allowed_domains = ['www.tanitjobs.com/jobs']
start_urls = ['https://www.tanitjobs.com/jobs']

def parse(self, response):
    pass

    all_jobs = response.css(".listing-item__jobs")

    for job in all_jobs:
        item = {
            'jobname' : job.css("article.listing-item div.listing-item__title a::text").getall(),
            "companyname" : job.css(".listing-item__info--item-company::text").extract(),
            "city" : job.css(".listing-item__info--item-location::text").extract() ,
            }

        yield item

    next_page = response.css(".pad_right_small a ::attr(href)").extract_first()
    if next_page:
       next_page = response.urljoin(next_page)
       yield scrapy.Request(url=next_page, callback=self.parse)

如果有人知道问题出在哪里，我真的需要你的帮助和提前感谢

allowed_domains=['www.tanitjobs.com/jobs']

由于它的变量名是一个死赠品，因此只应将允许的域放在该列表中，并且其中包含一个部分URL，这会导致异地筛选器拒绝该请求

除非您另有特殊需要，否则我建议仅在该值中列出基本域：

allowed_domains = ['tanitjobs.com']

我相信a和：：attr（href）之间的空格是错误的，而且您可能需要将链接设置为绝对链接。@pguardiario它是绝对的，我只是使用urljoin来实现这一点

[web scraping]相关文章推荐

Web scraping YQL-CDATA]]>；使用YQL选择数据时出错 web-scraping

Web scraping 从谷歌搜索结果中抓取数据可以吗？ web-scraping

Web scraping 如何使用iMacros从同一元素的标签POS=x在不同网页之间可变的网站中提取数据？ web-scraping

Web scraping 维基解密有一个不同寻常的robots.txt。我可以爬什么？ web-scraping web-crawler

Web scraping 如何获取此页面中的所有URL？ web-scraping scrapy

Web scraping 从ASP.NET站点加载压缩文件 web-scraping scrapy

Web scraping 刮花和504超时 web-scraping scrapy

Web scraping 删除谷歌公共数据 web-scraping

Web scraping 用靓汤获得第二个属性 web-scraping

Web scraping 使用BeautifulSoup获取表内容 web-scraping web-crawler

Web scraping 网页垃圾与刮擦-如何解释设置 web-scraping scrapy

随机文章推荐

Core data fetchedResultsController的NSPredicate问题 core-data

Core data 一旦NSPersistentStore未使用，如何从协调器中删除它？ core-data

Core data IOS模态视图控制器显示黑屏 core-data

Core data 核心数据和iOS数据存储指南 core-data ios5

Core data 新项目新型号NSPersistentDocument此NSPersistentStoreCoordinator没有持久存储 core-data

Core data 将核心数据设置为延迟加载到一个关系 core-data

Core data 在CoreData对象中设置属性会导致保存错误 core-data

Core data 从ViewController刷新AppDelegate中的NSPersistentStoreCoordinator core-data

Core data 核心数据：在多线程iOS应用程序中实现多个NSManagedObject和一个NSFetchedResultsController会让人非常困惑 core-data concurrency

Core data 跨运行恢复Core Data Master详细信息选择 core-data

Core data Swift核心数据删除问题 core-data swift

Core data NSManagedObject数组和reduce函数编译但在运行时失败 core-data swift types functional-programming

Core data 在后台获取核心数据更新的最佳方法 core-data ios8

Core data 使用核心数据绕过CLRegion 20区域上限的位置警报 core-data ios8

Core data 在Xcode 8中，私有pod核心数据不为objective-c生成模型 core-data

Core data 是否可以使用Graph更新保存到数据库中的实体？ core-data graph swift3

Core data 备份和恢复核心数据 core-data swift3

Core data 无法从核心数据中删除，swift4 core-data

Core data 持久化容器（或任何全局对象）的存储位置？应用代理还是场景代理？ core-data swiftui

Core data fetchUserRecordID Cloudkit错误：无法'；无法获取容器配置 core-data swiftui

[python]相关推荐

Python 如何编写基本的mercurial扩展？
Python Mercurial

基于opencv和python的人脸检测精度
Python Opencv

Python 在分布式爬虫中使用IP认证代理
Python Proxy Web Crawler

Python 无法使用pyparsing正确分析此文件
Python Parsing

Python 限制scipy.signal.correlate的范围
Python Optimization

数据节点上未安装的带有导入包的Python Hadoop流媒体
Python Hadoop Streaming

Python 使用硒/碎片刮除延迟ajax
Python Ajax Selenium Web Scraping

Python子进程间通信
Python

Python 从多个模型检索所有相关对象时，如何限制查询数量？
Python Django Django Models

Jinja 2 x python setup.py安装--旧版且不可管理
Python Python 3.x Flask

Python 数据帧子集系列
Python Pandas

Python 让git跟踪重命名文件上的更改（使用新文件使问题复杂化）
Python Git

Python 我的复杂字典乱七八糟
Python Xml Dictionary

Python 如何通过pickle编辑保存的绘图？
Python Matplotlib

Python使用键列表获取字典值
Python

Python 使用n-grams从书面文本中定位和提取数字数据问题:
Python Regex Parsing

Python epel发布repo缺少repomd.xml
Python Linux Centos

Python 如何配置django restframework swagger基本路径
Python Django Django Rest Framework Swagger

Python PyEphem:mag函数在地球上的特定位置没有返回正确的太阳星等？
Python

如何分析python代码和回溯
Python Tensorflow

Python pip搜索虚拟重试
Python Python 2.7 Pip

Python 用于非线性支持向量机的SGDC分类器
Python Scikit Learn

Python 除法中的分组错误
Python Pandas

Python XPath语句未按预期进行分析
Python Xpath Scrapy

获取文本文件Python中的特定节并保存到dict unbudlocalerror
Python

Python TTK无法在执行循环前更改状态按钮
Python Button

使用pythonpip分发可执行文件
Python Pip

Python 即使在安装MS Visual C++；在康达构建Studio 14.0
Python Visual Studio

Python 在dataframe中折叠/合并/向上移动列
Python Pandas

Python：将计数（计数器）保留在函数中，并在函数外打印总数
Python

Tags

Service Notifications Mapreduce Raspberry Pi Class Ag Grid Webrtc Ocaml Pyspark Eclipse Rcp Scheme Uml Cucumber Network Programming Soap Deep Learning Exception Handling Go Internet Explorer 8 Windows Phone Nuget Windows Phone 7 Sharepoint Memory Leaks Embedded File Rdf Deployment Biztalk F# Pytorch Editor Codenameone Openshift Corda Google Cloud Dataflow Amp Html Terminal Asp.net Mvc 4 Kotlin Image Gitlab Vue.js Utf 8 Opencart Django Qt4 Blackberry Svg Three.js List Core Data Database Design Opencv Postgresql Jquery Ui Dependency Injection Ipython Wcf Asp.net Mvc Rx Java Google Chrome Devtools Google Analytics Uitableview Intellij Idea Cocos2d X Racket Google App Maker Computer Vision Api Bots Validation Sbt Php Scikit Learn Redis C# 4.0 Selenium Octave Karate Phantomjs Video Streaming Directory Entity Framework 4 Stream Apache Flink Entity Framework Core Browser Asp.net Mvc 3 Appium Logging C# Mobile Android Emulator Navigation Salesforce Hybris Crystal Reports Filter Networking Ftp Mono Sapui5 Windows Store Apps Machine Learning Razor Windows Udp Interface Google Sheets Amazon Dynamodb Unix Variables Mvvm Windows Services Dll Jetty Stata Scala Liferay Jaxb Datatables Google Apps Script Ruby On Rails 3.1 Parse Platform Hibernate Stored Procedures Coq Stanford Nlp Google Api Routing Single Sign On Web Gis Less Antlr Module Cloud Foundry Quickbooks Twilio Nginx Angular Material Express String Flask Logic Spring Cloud Android Ndk Curl Woocommerce Sap Gwt Android Fragments Dynamic Asp Classic Tomcat Laravel 5 D Jenkins Ada Sugarcrm Winforms Cakephp Asynchronous Wso2 Xamarin.android Linux Charts Ssis Tcl Functional Programming Design Patterns Debian Javascript .htaccess Matrix Kentico Calendar Parallel Processing Electron Playframework Memory Meteor Moodle Titanium Zend Framework Vhdl Azure Data Factory Webview Macos Akka Ms Access Gtk Join Ionic2 Azure Functions Http Vmware Junit Dictionary Jestjs

Copyright © 2024. All Rights Reserved by - Fatal编程技术网