Python xpath通过<；拆分字符串；br>；标签_Python_Web Scraping_Scrapy - Fatal编程技术网

Python xpath通过<；拆分字符串；br>；标签

python web-scraping scrapy

Python xpath通过<；拆分字符串；br>；标签,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我对python和废弃的库有问题。当此代码出现时： self.item['char_SP4_TIP'] = response.xpath('//p[contains(@class, "spell-tooltip")]/text()').extract() 运行时，它从段落中提取文本，但按标记将其拆分因此，我不能像这样访问它：self.item['char\u SP4\u TIP'][0]，而必须访问[0][1][2]等。。无论有多少标记。有没有办法修复它，使它不会被标记分割？谢谢。您的xpa

我对python和废弃的库有问题。当此代码出现时：

self.item['char_SP4_TIP'] = response.xpath('//p[contains(@class, "spell-tooltip")]/text()').extract()

运行时，它从段落中提取文本，但按


标记将其拆分
因此，我不能像这样访问它：self.item['char\u SP4\u TIP'][0]
，而必须访问[0][1][2]
等。。无论有多少
标记。有没有办法修复它，使它不会被
标记分割？谢谢。
您的xpath选择所有文本节点，但
不是文本节点
废话

废话
选择这些^^^^^^^^^

您可以join
分割文本
texts = response.xpath('//p[contains(@class, "spell-tooltip")]/text()').extract()
text = '\n'.join(texts)

如果该类有多个
标记：
text = ['\n'.join(p.xpath('/text()').extract()) 
           for p in response.xpath('//p[contains(@class, "spell-tooltip")]')]

您能显示正在解析的相关HTML吗？还有，页面上有多少这样的标签？是的，一个标签看起来像：废话废话废话。

废话废话废话废话废话废话。由于标签的原因，报废会将其分为两部分。我只需要把它们放在一起，然后我就可以替换标签了。




[web scraping]相关文章推荐



                                                        
Web scraping 我可以追踪谁在链接或操纵我的网站吗；谁的数据？
web-scraping 
Web scraping 亚马逊产品广告项目查找IFrame页面大小
web-scraping 
Web scraping 使用bs4和请求删除起始页
web-scraping 
Web scraping 哪种最简单的方法可以从抓取的web数据中剥离HTML，从而只剩下字符串？
web-scrapingnlp 
Web scraping 登录在SplashAPI中工作，但在使用SplashRequest时不工作
web-scrapingscrapy 
Web scraping Scrapy：当满足条件时，如何在start_url中抓取下一个url
web-scrapingscrapy 
Web scraping 在没有API访问的情况下访问ServiceNow？
web-scraping 
Web scraping 网页抓取谷歌表单脚本
web-scrapinggoogle-sheets 
Web scraping 为什么我在抓取网页时得到的是一个空列表，而不是一个包含元素的列表
web-scraping 
                                       





随机文章推荐



                                                        
使用Trace 32将图像闪烁到STM3220g评估板
stm32 
Stm32 锁相环时钟配置
stm32 
Stm32 断点上的OpenOCD退出
stm32 
qemu-stm32中的模拟按钮
stm32 
STM32 HSE不稳定频率
stm32


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
什么'；在python中，将对象转换为列表的最佳方法是什么？
									Python
							 									Types
							 
Python 调用方法时未定义自参数？
									Python
							 									Class
							 									Methods
							 
将事件传递给wxPython中类外的函数
									Python
							 									Wxpython
							 
使用代理时Python Flask web抓取错误
									Python
							 									Proxy
							 
缺少药剂参数时出错。Python、Flask、Graphql
									Python
							 									Flask
							 									Graphql
							 
如何将python源代码构建到当前目录？
									Python
							 									Python 3.x
							 
Python 在power bi中添加语言检测列
									Python
							 									Powerbi
							 
在python中计算数据帧中与引用可变值的条件相匹配的行
									Python
							 									Pandas
							 
Python 如何通过3种不同的功能传递用户输入
									Python
							 
Python 未从单独文件导入的类实例的属性
									Python
							 
Python 使用内置列表函数将两个列表转换为字典？
									Python
							 									List
							 									Dictionary
							 
如何在apache中指定python文件的路径
									Python
							 									Apache
							 									Path
							 
在Python的LP中替代Sum函数以获得更好的时间性能
									Python
							 									Performance
							 
Python 如何将图像数据从存储桶加载到AWS sagemaker笔记本？
									Python
							 									Machine Learning
							 									Amazon S3
							 									Deep Learning
							 
Python 当我试图通过终端安装Pygame时，它给了我以下信息：error:command'；gcc&x27；失败，退出状态为1
									Python
							 									Python 3.x
							 									Terminal
							 
Python 从pandas数据帧中获取随机样本，但每个值只有一个
									Python
							 									Pandas
							 
Python 向PyCharm项目添加一个新目录，其中所有csv'；应该存储这些数据
									Python
							 									Pandas
							 
Python 在节点js中将一个目录中的文件打开到另一个目录中
									Python
							 									Node.js
							 
Python 熊猫：根据另一列列表中的值对列列表进行排序
									Python
							 									Pandas
							 									Sorting
							 
selenium.common.exceptions.WebDriverException:消息：通过Python将selenium与ChromeDriver和Chrome一起使用时会话id无效
									Python
							 									Selenium
							 									Google Chrome
							 
Python 用户单击的WebElement日志记录
									Python
							 									Python 3.x
							 									Selenium Webdriver
							 
Python 如何使用lxml从xpath获取所有文本
									Python
							 									Html
							 
Python 错误条的颜色映射
									Python
							 									Pandas
							 									Matplotlib
							 
Python 是什么导致了我的错误和无法创建输出？
									Python
							 									Scrapy
							 
Python 用symfit计算的傅里叶级数
									Python
							 
Python 将单个Json文件数据保存到同一SQL DB中的两个不同表中
									Python
							 									Mysql
							 									Json
							 									List
							 									Dictionary
							 
Python 如何处理windows生成的csv末尾追加的空行？
									Python
							 									Pandas
							 
在Python中，每次迭代字符串2（或n）个字符
									Python
							 
Python TypeError:参数类型为'；类型'；这是不可容忍的
									Python
							 
Python 代码赢得'；t在函数中运行elif语句
									Python
							 									Function
							 									Audio
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
C# 4.0
Servlets
Windows Installer
Tinymce
Ubuntu
Linker
Cors
Dom
Antlr4
Ecmascript 6
Knockout.js
Socket.io
Cypress
Swift3
Smtp
Asp.net Mvc
Activemq
Sencha Touch 2
Replace
Linux
Process
Sip
Jira
Floating Point
Netlogo
Kubernetes
Node.js
Xml
Join
Authentication
Cloud
Material Ui
Pip
Opengl
Spring Cloud
Wpf
Prometheus
Iphone
Air
Gremlin
Three.js
Io
Swift2
Rabbitmq
Scikit Learn
Glassfish
Office365
Random
Smalltalk
Class
Html
Spring Batch
Plsql
Actionscript 3
Calendar
Kernel
Amp Html
Jmeter
Selenium Webdriver
Coffeescript
Quickbooks
File Io
.net 4.0
Validation
Concurrency
Optimization
Javafx
Core Data
Ip
Virtual Machine
Forms
Cassandra
Graphql
Recursion
Filter
Azure Data Factory
Ibm Mq
Pagination
Uitableview
Mapbox
Log4net
Verilog
Clojure
Tsql
Appium
Intellij Idea
Sms
Gwt
Mongodb
Syntax
Bazel
Interface
Akka
Visual C++
Indexing
Logstash
Eclipse Plugin
Pytorch
Jar
Haskell
Merge
Acumatica
Amazon Redshift
Go
Programming Languages
Microservices
Raspberry Pi
Grid
Eclipse
Service
Meteor
Cocoa Touch
Windows Store Apps
Discord.js
Pandas
Continuous Integration
Fiware
Nestjs
Seo
Configuration
Windows Runtime
Groovy
Vue.js
Internet Explorer
Applescript
Silverlight
Serialization
Umbraco
Google Bigquery
Sitecore
Office Js
Orientdb
Winapi
For Loop
Input
Openerp
Unix
Ipython
Nhibernate
Gmail
Directx
Airflow
Svn
Google Cloud Dataflow
Url
Ssh
Report
Rx Java
Version Control
C#
Blockchain
Hive
Ibm Midrange
Memory
Laravel 5
Erlang
Time
Terminal
Razor
Regex
Character Encoding
Keras
Variables
Jpa
Python 2.7
Axapta
Imagemagick
Data Binding
Computer Vision
Typescript
Prestashop
View
Java Me
Tomcat
Cmake
Xamarin.ios
Design Patterns
Jwt
Openlayers 3
Rss
Twitter
Iis
Mapping
Llvm
Loops
Url Rewriting
Sas
Xamarin.forms
Cron
Xpath
Tridion
Angular
Dns
Fullcalendar
Asp.net Mvc 5
Maven 2
Dependency Injection
Azure Sql Database
Events
Enums
Vagrant


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网