在python中使用正则表达式剥离标记_Python_Regex_Web Scraping - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/19.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在python中使用正则表达式剥离标记_Python_Regex_Web Scraping - Fatal编程技术网

在python中使用正则表达式剥离标记

python regex web-scraping

在python中使用正则表达式剥离标记,python,regex,web-scraping,Python,Regex,Web Scraping,如何从列表中删除标签： ['</span>A walk in the park<span class="html-tag"] ['A walk in the park您可以使用： (?:>)(.*)(?:<) （？：>）（*）（？：你与正则表达式的关系非常密切。在Lookback找到位置后，出于好奇，你只想读到下一个-你是如何首先获得该字符串的…？似乎你可能希望在某些处理过程中以不同的方式提取文本，而不是整理这些…@JonClements我只是创建上述内容是为了

如何从列表中删除标签：

['</span>A walk in the park<span class="html-tag"]

['A walk in the park您可以使用：
(?:>)(.*)(?:<)

（？：>）（*）（？：你与正则表达式的关系非常密切。在Lookback找到位置后，出于好奇，你只想读到下一个-你是如何首先获得该字符串的…？似乎你可能希望在某些处理过程中以不同的方式提取文本，而不是整理这些…@JonClements我只是创建上述内容是为了反映我在一项更复杂的任务中遇到的一些问题，这项任务可能很难解释。当然-看起来你只是想澄清一些可能避免的事情。我知道，嘿。这是uni任务的一部分，禁止使用除“re”模块以外的任何模块进行网页抓取。我觉得很傻
(?<=</span>)[^<]+

$ cat test.py
import re
s='</span>A walk in the park<span class="html-tag"'
print re.findall(r'(?<=</span>)[^<]+', s)

$ python test.py
['A walk in the park']




[regex]相关文章推荐



                                                        
Regex 对正则表达式感到困惑吗
regex 
Regex BBCode到XHTML：两种可能性，一个正则表达式？
regex 
Regex Perl模式匹配问题
regexperl 
Regex 简单Perl正则表达式
regexperl 
Regex Apache mod_重写[R，C]不工作
regexapachemod-rewrite 
Regex 正则表达式的简化
regexcomputer-science 
Regex 无法正确使用find-name
regexlinuxbash 
Regex 如何根据开始和结束位置查找和替换字符串
regexwindowsbatch-filetextcmd 
Regex 合并正则表达式并填充一定数量的单元格
regexvbaexcel 
Regex Powershell简单正则表达式捕获组未捕获
regexpowershell 
Regex 删除尾随，立即将WWW重定向到WWW
regex.htaccess 
Regex 正则表达式将所有字符匹配到数字（如果有）
regex 
Regex linux中如何替换十进制
regexlinuxbashsed 
Regex Schematron xslt 1.0邮政编码格式验证
regex 
Regex 仅当数字不'；我周围没有引号
regex 
Regex 仅从与正则表达式匹配的行中筛选字符串
regexbashsedgrep 
Regex vs代码中的Vim正则表达式等效项
regexvisual-studio-code 
Regex 使用正则表达式筛选通过ls获得的文件夹列表
上下文
regexbash 
尝试使用regexp查找路径中的目录数
regexbash 
Regex 正则表达式：下划线之间的匹配
regex 
                                       





随机文章推荐


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
使用Doxygen的Qt风格文档？
如何用Doxygen制作QT风格文档（TrLeTeC+C++ QT或River Byt Pyqt文档）？我正在编写Python文档，我希望能够改进它生成的默认函数简介
									Python
							 									Documentation
							 									Doxygen
							 
Python 将IPv4或IPv6地址转换为长地址以进行比较
									Python
							 
如何通过Swig为Python类创建别名？
我创建了一个C++库，并成功地使用了SWIG，使它可以通过Python访问。库中大量使用模板，每个模板类型都通过swig映射到自己的python类，如下所示：
%template(Imageint) Image<int>;
%template(Imagedouble) Image<double>;
									Python
							 									Templates
							 
在Eclipse中将GoogleAppEngine与Python结合使用
									Python
							 									Eclipse
							 									Google App Engine
							 
Python 在Windows 7中使用默认程序打开PDF
									Python
							 									File
							 
Python 计算数值表达式
									Python
							 
Python 如何更改附件名称？
									Python
							 									Html
							 
Python lxml.etree.XMLSyntaxError:htmlParserEntityRef:应为''；
									Python
							 
Python 使用pygtk（可能是X11？）确定当前壁纸的路径
									Python
							 
Python redis和芹菜的实例
									Python
							 									Redis
							 
Python 检查字典中的密钥是原子操作吗？
									Python
							 
Python将*参数转换为列表
									Python
							 									List
							 
Python “；缩进错误：未缩进与任何外部缩进级别不匹配；
									Python
							 
Python SocketServer—对BaseRequestHandler进行子类化的目的
									Python
							 
Heroku上ElasticSearch的Python包装器
									Python
							 									Heroku
							 
python中的排序错误
def合并列表（所有列表）：
def合并（左、右）：
结果=[]
而左右：
如果最小值（左）>> [0, 1, 2, 3, 3, 4, 4, 6, 6, 7, 7, 7, 10, 11, 12, 22, 32, 34, 123, 88]
									Python
							 									Sorting
							 									Recursion
							 
使用python和pandas按季节分组数据
									Python
							 									Csv
							 									Pandas
							 
Python 解析Microsoft DNS调试日志
									Python
							 
Python 我怎么能在同一个地方有两条不同的蟒蛇
									Python
							 									Macos
							 
Python请求使用代理407状态代码，即使curl可以工作
									Python
							 									Proxy
							 
比较两个字典列表中的值的Python方法
我是Python的新手，我还在尝试在Python中摆脱C++编码技术，所以请原谅我这是个小问题。我似乎找不到最适合做这件事的方法
									Python
							 									List
							 									Python 2.7
							 									Dictionary
							 
如何在putty打开的远程机器上运行python脚本
									Python
							 									Ssh
							 
Python 限制（权限）Django staff用户更改模型的某些字段
									Python
							 									Django
							 									Python 2.7
							 									Permissions
							 
Python 使用Django的F（）表达式异常行为
									Python
							 									Django
							 									Django Models
							 
Python 如何使用OpenCV或numpy打印线上每个点的坐标？
									Python
							 									Python 3.x
							 									Opencv
							 
Python 为什么我保存的动画视频是空白的？
									Python
							 									Matplotlib
							 									Ffmpeg
							 
Sphinx找不到我的python文件。说'；没有名为…'的模块；
									Python
							 									Python 3.x
							 									Python Sphinx
							 
对称的；“字符串”；Python中的矩阵
									Python
							 
Python 具有相同URL的两个不同XML命名空间
									Python
							 									Xml
							 									Database
							 
Python 如何将y_true作为dict传递给未更改的自定义损失函数？
									Python
							 									Tensorflow
							 									Keras
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Windows 10
Modelica
Ibm Mobilefirst
Openssl
Sockets
Cocoa Touch
Debian
Firebase
Gmail
Xampp
Orm
Sharepoint 2010
Logstash
Http
Oracle Apex
Botframework
Azure
Windows Store Apps
Git
Internationalization
Sap
Gwt
Apache Zookeeper
Parallel Processing
Network Programming
Spring
Codenameone
Xamarin.android
Angular6
Time Complexity
Tinymce
Xpages
Linker
Web
F#
Wcf
Google Cloud Storage
Validation
Osgi
Omnet++
Templates
Salesforce
Jenkins
Haskell
Nsis
Clang
Log4j
Bazel
Ruby
Syntax
Neural Network
Windows
Google Cloud Firestore
Oracle
Ssas
Keras
Jestjs
Hyperledger Fabric
Xamarin
Visual C++
Mvvm
Tridion
Typo3
Powerbi
Amazon Redshift
Cluster Computing
Twilio
Drop Down Menu
Vb.net
Android Fragments
Listview
Performance
Wordpress
Zend Framework2
Zend Framework
Websocket
Netty
Solr
X86
Optimization
Virtualbox
Google Cloud Dataflow
Random
Printing
Uitableview
Smtp
Azure Sql Database
Email
C
Raspberry Pi
Crystal Reports
Menu
Pointers
Sorting
Silverstripe
Frameworks
Svn
Swift3
Inno Setup
Antlr4
Algorithm
Enums
Udp
Error Handling
Matrix
Exception Handling
Pascal
Sql Server
Plugins
Compression
Autodesk Forge
Design Patterns
Jekyll
Matlab
Kubernetes
Operating System
Quickbooks
Fonts
Streaming
.htaccess
Sed
Visual Studio 2008
Sharepoint 2013
Linux
Browser
Typescript
Leaflet
Redis
Memory
Sml
Internet Explorer 8
Google App Engine
Woocommerce
Telerik
Prestashop
Sas
Sapui5
Methods
String
Symfony1
Elixir
Path
Jhipster
Gps
Xml
Import
Ethereum
React Native
Yii2
Asp.net Core Mvc
Graphql
Geolocation
Laravel 4
Video
Certificate
Audio
Julia
Migration
Jersey
Asterisk
Android
Nest
Processing
Servlets
Binding
Bots
Plsql
Netlogo
Fluent Nhibernate
Intellij Idea
Anaconda
Reflection
Encoding
Layout
Mono
Opencart
Cuda
Logic
Gis
Sdk
Ag Grid
Mpi
Xcode4
Compiler Errors
Extjs
Wxpython
Apache Flink
Routes
Calendar
Npm
Video Streaming
Ant
Apache2
Ubuntu
Loopbackjs
Corda
Grid
Cron
Delphi
Azure Data Factory
Configuration


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网