Python Scrapy：努力实现爬行爬行器_Python_Web Scraping_Scrapy - Fatal编程技术网

Python Scrapy：努力实现爬行爬行器

python web-scraping scrapy

Python Scrapy：努力实现爬行爬行器,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我一直在尝试实现一个网络爬虫来从黑客新闻网站上抓取标题和要点。通过使用普通的scrapy.spider类，我成功地解析了它。然而，我希望有一种使用链接提取器在链接中爬行的健壮方法。以下是我当前的设置： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class QuotesSpider(CrawlSpider): name

我一直在尝试实现一个网络爬虫来从黑客新闻网站上抓取标题和要点。通过使用普通的scrapy.spider类，我成功地解析了它。然而，我希望有一种使用链接提取器在链接中爬行的健壮方法。以下是我当前的设置：

import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class QuotesSpider(CrawlSpider): name = "crawl" allowed_domains = ['news.ycombinator.com'] start_urls = [ 'https://news.ycombinator.com/news?p=2', ] rules = [ Rule(LinkExtractor(allow=r'news?p=[3-9]'), callback='parse_news', follow=True) ] def parse_news(self, response): data = {} title = response.xpath("//td/a[@class='storylink']/text()").getall() point = response.xpath("//td[@class='subtext']/span/text()").getall() length = len(title) for each in range(length): data["title"] = title[each] data["point"] = point[each] yield data

运行此操作后，我似乎无法将任何信息保存到json中。
您的代码有很多错误，但第一步，您必须修复LinkExtractor：

Rule(LinkExtractor(allow=r'news\?p=[3-9]'), callback='parse_news', follow=True)
问号是正则表达式中的一个特殊字符，因此必须在它前面加一个
\
。接下来，您必须修复
for
循环中的数据提取过程

[web scraping]相关文章推荐

Web scraping 从维基百科抓取数据 web-scraping

Web scraping 从网站获取新闻的最佳方法？ web-scraping

Web scraping 多页表单（Nokogiri、Scrapy、其他？） web-scraping scrapy

Web scraping 在不接触api的情况下刮取pastebin的最佳速率？ web-scraping

Web scraping 抓取网页并查找行标题 web-scraping artificial-intelligence

Web scraping 如何获取输入的自定义查询的Googlenews链接 web-scraping nlp

Web scraping 刮屑响应403设置请求。不要过滤错误 web-scraping scrapy

Web scraping Python请求会话未启用Cookie web-scraping

Web scraping 是否有任何具体的声明，以使美丽的团队能够正确地进行刮除？ web-scraping

Web scraping 如何从重定向链接中刮取url？ web-scraping

随机文章推荐

Service 如何使用另一个自定义portlet'；Liferay 6.0.6中的s服务层 service dependencies liferay

Service Installshield在小升级期间未停止服务 service

Service VBScript-在WinXP（但不是Win7）中为服务返回未知的StartMode service vbscript

Service OSX和CVSROOT service

Service 在15到30台机器上快速安装Windows服务的好产品是什么？ service installation windows-installer

如何将Guid写入CRM的service.Create（）记录？ service

Service 更新服务引用时出错 service reference visual-studio-2013

Service 在CentOS中将kibana 4作为服务运行 service centos kibana

Service Bluemix服务实例限制 service ibm-cloud

Service 如何知道服务容器是否已准备好进行连接？ service docker docker-compose

Service 使用服务的连续操作 service

Service Angular 2.0演示教程-说明 service angular

Service 实例名称显示为"；“未知”；在Eureka仪表板上，而不是在服务名称上 service

Service 在出现无法启动的服务后，继续Wix设置 service wix windows-installer

Service 识别BLE信标服务（启用通知，如果可用） service notifications

Analysis Services-TMSL-从C执行# service

Service VSPackage如何使服务在同一接口上实现？ service

[python]相关推荐

Python 使用滚动、俯仰和偏航扭曲图像
Python Image Opencv Matrix

Django NoReverseMatch u的“proto”不是已注册的命名空间 Django 1.6.1 Python 2.7.5 网络服务提供商
Python Django

使用python创建bash文件
Python Linux Bash

Python 为什么在批处理写入DynamoDB时，有时会收到“超出项目大小”消息？
Python Json Amazon Dynamodb

Python ystockquote历史数据顺序错误？
Python

Python Django 1.7安装的应用程序导入错误
Python Django

Python JSON类型验证-指南
Python Json Validation

Python Mac的安装文件
Python Installation

Python 无法在moviepy中创建文本剪辑（imagemagick是否成功安装？）-出现Utf8错误
Python Utf 8

Python 使用栅格上坐标点的值创建二维阵列
Python Arrays Numpy Indexing

Python索引错误字符串
Python

Python错误：列出我们的索引范围，没有值起作用
Python

已安装Python2.7和3.4，不再能够运行Python3
Python

Python Pygame安装问题
Python Pycharm Installation

Python 对所有实例进行拆分和迭代，并返回两项
Python

Python 逆变换预测结果
Python Machine Learning Scikit Learn

mysql请求中的Python变量
Python Mysql

OpenCV Python：仅在ROI中检测线条
Python Opencv

Python 如何理解两次连续赋值'cur=dummy=Node（7）`或'a=b=Node（7）`？
Python

使用MPI在python中分散字典
Python Numpy Mpi

Python 将音频转换为整数，然后再转换为音频
Python Numpy Struct

Python请求对shopify api的put请求总是给出错误消息
Python Django

Python Django频道在哪里存储用户的频道名称？
Python Django Websocket

将numpy数组的列转换为python列表
Python Pandas Numpy

Python重复数据消除排序列并转换为行
Python Pandas

Python openpyxl-设置用于打印的自定义纸张大小
Python

如何将这个Python变量分配给循环使用的列表？感谢所有让我的第一篇StackOverflow帖子变得非常有用和有趣的人。
Python For Loop

Python 如何发送电子邮件一次在Django管理后，我已经改变了用户内联线？
Python Django Python 3.x

Python 如何在Dark Sky API中指定日期范围
Python

Python 如何在数据中多次枚举函数循环
Python

Tags

Wcf Angular Tableau Api Aframe Protocol Buffers Cors Activerecord Firefox Addon Salesforce Math Bluetooth Cmake Sms Dynamics Crm Backbone.js Filesystems Parse Platform Cypress Pascal Emacs Exception Handling Yii Uitableview Material Ui Maven 2 Laravel Xpath Nest Ssl Office365 Listview Android Artificial Intelligence Amp Html Pandas Lisp Gradle Glsl Android Emulator Google Drive Api Url Iframe Exchange Server Stata Ember.js Google Chrome Extension Atom Editor Gnuplot Perforce Android Fragments Redis Actionscript Drop Down Menu Dialogflow Es String Tensorflow Silverlight 4.0 Webpack Struct Csv Autodesk Forge Encoding Http Common Lisp View Svn Twilio Loopbackjs Acumatica Ms Word Macos Antlr4 Mvvm Kendo Ui Phpstorm Actions On Google Coding Style Websphere Jaxb Arduino Aurelia Deployment Flask Visual Studio 2013 Ubuntu Gruntjs Combobox Playframework Ckeditor Coq Powerbi Openssl Visual Studio 2010 Mqtt Windows Phone Variables Assembly Vagrant System Verilog Eclipse Plugin Pdf Pentaho Security Vb.net Gdb Migration Sql Lambda Latex Electron Graphviz Compression Javafx 2 Amazon S3 Fonts Gcc Vhdl Gmail Visual Studio Database Openlayers 3 Generics Hybris Nsis Asp.net Mvc 5 Facebook Graph Api Gtk Jboss Terminal Osgi Scripting Numpy Stanford Nlp Jpa Inno Setup Oracle Apex Fortran C Discord.py Joomla Azure Functions Aem Perl Heroku Apache Nifi 3d Mod Rewrite Automation Single Sign On Azure Service Fabric Language Agnostic Extjs4 Tinymce Cocos2d Iphone Google Bigquery Visual Studio 2012 Filter Swing Nunit Air Graphql Datetime Umbraco Jdbc Rust Certificate Xmpp Nginx Gis Printing Swiftui Rx Java .net 4.0 Flutter Sparql Inheritance Lucene Nosql Apache Storm Teradata Uml Google Cloud Storage Iis 7 Arrays Safari Notepad++ Excel Parsing Jira Reference Azure Data Factory Stored Procedures Speech Recognition Rspec Import Eclipse Ios Express Vba Windows Jwt

Copyright © 2024. All Rights Reserved by - Fatal编程技术网