Python 根据链接的长度刮取链接_Python_Python 3.x_Scrapy - Fatal编程技术网

Python 根据链接的长度刮取链接

python python-3.x scrapy

Python 根据链接的长度刮取链接,python,python-3.x,scrapy,Python,Python 3.x,Scrapy,我想用这个网站的字母名称刮去所有页面的链接：也就是说，链接如下： ['/pinpai/2-a.html','/pinpai/3-b.html'...] 为了在里面多刮一些东西接下来，我激励自己学习xpath过滤。由于它们的长度似乎不到17个字符，并且我在文档上找到了一些长度过滤资源，因此我尝试在下面的scrapy scraper的spider中按长度过滤链接： import scrapy class NosetimeScraper(scrapy.Spider): name =

我想用这个网站的字母名称刮去所有页面的链接：

也就是说，链接如下：

['/pinpai/2-a.html','/pinpai/3-b.html'...]

为了在里面多刮一些东西

接下来，我激励自己学习xpath过滤。由于它们的长度似乎不到17个字符，并且我在文档上找到了一些长度过滤资源，因此我尝试在下面的scrapy scraper的spider中按长度过滤链接：

import scrapy

class NosetimeScraper(scrapy.Spider):
    name = "nosetime"
    start_urls = ['https://www.nosetime.com/pinpai/']

    def parse(self, response):
        # proceed to other pages of the listings
        for page_url in response.xpath('//a[contains(@href, "pinpai"), string-length(@href)<17]/@href').extract():
            print("page_url: ", page_url)
            page_url = response.urljoin(page_url)
            yield scrapy.Request(url=page_url, callback=self.parse)

import scrapy
类：Scraper（scrapy.Spider）：
name=“nosetime”
起始URL=['https://www.nosetime.com/pinpai/']
def解析（自我，响应）：
#转到列表的其他页面
对于response.xpath（'//a[contains（@href，“pinpai”），字符串长度（@href）我认为xpath的正确sintax是
'//a[contains(@href, "pinpai") and string-length(@href)<17]/@href'

”//a[contains（@href，“pinpai”）和字符串长度（@href）在谓词中替换为“//a[contains（@href，“pinpai”）和字符串长度（@href）谢谢！该死，你可以在这些过滤器中使用regex？！
'//a[contains(@href, "pinpai") and string-length(@href)<17]/@href'

response.xpath('//a[contains(@href, "pinpai") and string-length(@href)<17]/@href').extract()




[python 3.x]相关文章推荐



                                                        
Python 3.x 情绪分析模型-处理否定
python-3.xmachine-learningscikit-learn 
Python 3.x Tensorflow值错误：无法使用eval计算tensor
python-3.xtensorflow 
Python 3.x 比较双重列表中的元素并返回双重列表
python-3.x 
Python 3.x 允许的最大activewidth对象数
python-3.xtkinter 
Python 3.x 传入文件时，`print（）`函数中的PyCharm类型提示警告
python-3.xtypespycharm 
Python 3.x Python3.6：基于名称中带有空格的列的直方图
python-3.xnumpymatplotlib 
Python 3.x 使用pandas从dataframe获取同名行的列表
python-3.xpandas 
Python 3.x 在python中为x轴条形图添加数据间隔
python-3.x 
Python 3.x 用reprlib省略列表的中间部分
python-3.x 
Python 3.x 使用MXRecordIO从字节对象读取
python-3.x 
Python 3.x 从Windows命令提示符复制Anaconda环境
python-3.xanaconda 
Python 3.x 如何在python3的lambda中设置条件
python-3.xlambda 
Python 3.x 如何下载字节形式的图像？
python-3.x 
Python 3.x 熊猫时间序列：对每日数据的有效操作
python-3.xpandas 
Python 3.x 从多进程调用的子进程未完成
python-3.xffmpeg 
Python 3.x 将鼠标悬停在VS代码Python 3-7中的变量上
python-3.xvisual-studio-code 
Python 3.x Python dh键太小，哪一侧有故障？
python-3.xssl 
Python 3.x 类型错误：'；列表'；对象不可调用。sum（）函数
python-3.x 
Python 3.x GNU无线电3.9中的RTL-SDR
python-3.x 
Python 3.x 由于在Ubuntu 18.04上安装了Python 3.9.5，因此获取错误
python-3.x 
                                       





随机文章推荐



                                                        
Php 如何从MySql数据库中检索图像？
phpmysqliosimage 
使用SQL、Javascript和/或PHP使用下拉列表中的结果填充html表
phpjavascriptsqldrop-down-menu 
Php 将变量从javascript函数传递到codeigniter中的控制器方法
phpjavascriptcodeigniter 
Php 在while循环中插入多行
phploops 
Php 可以从数据库中列出数组，但可以'；不要列出它的任何特定列
phpmysql 
使用开放SSL库和从头开始编码CBC模式的PHP中AES加密不一致
phpcryptographyopenssl 
如何在CakePHP中将带前缀和不带前缀的路由指向同一操作
phpcakephp 
Php 用变量传递提交按钮名称？
phphtml 
Php 跨域问题--jsonp不工作
phpjqueryajax 
Php Codeigniter删除记录失败
phpsqlsql-servercodeignitersql-server-2012 
Php 显示WordPress子类别（如果有）
phpwordpress 
Php 如何在zend framework中获取插入记录的id
phpmysqlzend-framework2 
删除php字符串中除一个已定义域以外的所有域
php 
PHP邮件函数没有'；无法完成电子邮件的发送
phphtmlemail 
PHP可以输出的函数和语句的完整列表
phplogging 
将Mozilla背包连接API与PHP结合使用
phpjsoncurl 
Php html内容中的MySQL全文搜索结果
phphtmlmysql 
回显一个php文件
php 
Php 我的自定义主题中不显示选项卡内容
phpwordpress 
Php Laravel/admin/login继续重定向到/login
phplaravel


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
如何根据特殊条件（Python中的一行）剥离文本文件每行中的变量空间？
									Python
							 									Parsing
							 									Formatting
							 
Python Matplotlib如何在PIL图像上绘制图形
									Python
							 									Matplotlib
							 
Python *.npy windows读卡器
									Python
							 									Numpy
							 
Python—从一行中的给定点查找前后五个单词的最佳代码
									Python
							 									Search
							 									String
							 
使用python将冒号（：）分隔的字符串解析为对象
									Python
							 
Python Django的类XAMPP堆栈
									Python
							 									Django
							 									Xampp
							 
Python调用模块
									Python
							 
Python argparse：如何在仍然是可选参数的情况下将“---add”更改为“add”？
									Python
							 
Python 将Sphinx PDF输出附加到Sphinx HTML输出
									Python
							 									Python Sphinx
							 
Radiobutton在python中工作不正常
									Python
							 									Tkinter
							 
python列表理解：收集重复列
									Python
							 
在Python中引发未处理的C异常
									Python
							 									C
							 									Windows
							 									Exception
							 
Python Pymongo在更新/删除操作成功后返回none
									Python
							 									Mongodb
							 
Python 如何下载一个网页的所有图片并以原始名称保存？
									Python
							 									Firefox
							 									Selenium
							 									Python 3.x
							 									Selenium Webdriver
							 
用cartopy和pyre样本投影卫星图像的差异
我编写了一个Python脚本来投影和覆盖来自邓迪大学的地球静止卫星图像，这样得到的图像可以用于x星球绘制地球表面。该工具的源代码位于（这是支持cartopy的分支）
									Python
							 									Matplotlib
							 
Python NumPy数组上的和辛表达式
									Python
							 									Numpy
							 
Python 使用PyObject_CallMethod调用带有可选参数的函数
									Python
							 									C++
							 									C
							 									Python 2.7
							 									Python 3.x
							 
python中的复杂正则表达式匹配
									Python
							 									Regex
							 
Python 将unicode（希伯来文字符）与正则表达式一起使用
									Python
							 									Regex
							 									Unicode
							 
允许在两个方向上添加自定义python类
									Python
							 									Class
							 
Python 如何向QML表中添加动态数据
									Python
							 									Qml
							 
Python tensorflow复制变量，但无法训练以预训练下一层
									Python
							 									Tensorflow
							 
Python Windows上的谷歌刮板-错误setup.py egg\u info
									Python
							 									Windows
							 									Pip
							 
Mypy Python 2坚持unicode值而不是字符串值
									Python
							 									Python 2.7
							 
Python | HTTP-如何在下载之前检查文件大小
									Python
							 									Http
							 
基于分隔符从python中的字符串中提取子字符串
									Python
							 									String
							 									Python 2.7
							 									Python 3.x
							 
解析U+；00BE（¾；）到python中的数字
									Python
							 									String
							 									Unicode
							 
Python 如何用零分隔数据帧的象限
									Python
							 									Pandas
							 									Numpy
							 
Python 如何在神经网络中使用Softmax激活函数
									Python
							 									Neural Network
							 									Artificial Intelligence
							 
python中单元测试的模拟boto3批写
									Python
							 									Unit Testing
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Eclipse
Unix
Excel Formula
Networking
Discord.py
Redux
Cobol
Visual Studio 2008
Windows 10
Codenameone
Apache
Wso2
C#
Programming Languages
Couchbase
Apache Flink
Wordpress
Merge
.net Core
Combobox
Extjs4
Doxygen
Post
Apache Flex
Twilio
Heroku
Robotframework
Perforce
Firefox
Cygwin
Rally
Requirejs
Sugarcrm
Colors
Rabbitmq
Google App Maker
Indexing
Binary
Common Lisp
Encoding
Cocoa
Artificial Intelligence
Sprite Kit
Oracle Apex
Jasmine
Sql Server
Reference
Less
Sublimetext2
Api
Ionic2
Centos
Iis
Safari
Gstreamer
Cloud
Objective C
Stanford Nlp
Titanium
Sql
Coding Style
Rest
Enums
Sails.js
Botframework
Matrix
Ubuntu
Twig
Talend
Bots
Swift3
Arrays
Graphviz
Gtk
Ipython
Sitecore
Log4net
Cron
Mule
Google App Engine
Jestjs
Ruby On Rails 3.1
Google Visualization
Deep Learning
Batch File
Spring Integration
Session
Apache Camel
Marklogic
Sas
Blockchain
Elixir
Triggers
Sonarqube
Jsf
Artifactory
Pascal
Floating Point
Virtualbox
Azure Functions
Tensorflow
Mongoose
Ssh
Lotus Notes
Asp.net Mvc 2
Hive
Shell
Dynamics Crm
Nestjs
C# 3.0
Sorting
Drupal 7
Spring Boot
Migration
Ibm Mobilefirst
Loopbackjs
Ms Office
Air
Xquery
Qt4
Windows Phone
Google Maps
Oauth
Scroll
Mongodb
Composer Php
Modelica
Tridion
Forms
Amazon Redshift
Exception
Maps
Ember.js
Build
Z3
Select
Jqgrid
Uiview
Dojo
Apache Zookeeper
Cookies
Prometheus
Google Cloud Firestore
Anaconda
Memory Leaks
Primefaces
Ip
Playframework
X86
Https
Cors
Swagger
Subsonic
Windows Services
Yocto
Regex
Smalltalk
Angular Material
Linq To Sql
Layout
Youtube Api
Resharper
Geometry
Windows 7
Teradata
Mapreduce
Function
Django
Struts2
Llvm
Ldap
Process
Debian
Cocoa Touch
Azure
Devexpress
Windows
Sql Server 2008 R2
Delphi
Protractor
Jquery Plugins
Lisp
Glassfish
Knockout.js
Mqtt
Ant
Graphics
Android Emulator
Vagrant
Angularjs
Windows 8
Python 2.7
Sublimetext3
Sphinx
Google Chrome
Inno Setup
E Commerce
View
D
Stata
Jakarta Ee


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网