Html 正则表达式提取数据_Html_Regex - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/selenium/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Html 正则表达式提取数据_Html_Regex - Fatal编程技术网

Html 正则表达式提取数据

html regex

Html 正则表达式提取数据,html,regex,Html,Regex,如果我必须从HTML页面源代码中提取某些属性的值。例如：如果我想得到地址的值 <span class="address">413 W. Street</span></span><br> 413 W街编辑：对不起，我把问题理解错了。我试着删除这个问题，但没有成功。我在这里发布了新问题：使用正则表达式从原始html中提取数据有点困难，因为不同站点的模式可能会有所不同。使用能够查看DOM树的东西更容易如果您使用的是python，那么

如果我必须从HTML页面源代码中提取某些属性的值。例如：

如果我想得到地址的值

    <span class="address">413 W. Street</span></span><br>

413 W街

编辑：对不起，我把问题理解错了。我试着删除这个问题，但没有成功。我在这里发布了新问题：

使用正则表达式从原始html中提取数据有点困难，因为不同站点的模式可能会有所不同。使用能够查看DOM树的东西更容易

如果您使用的是python，那么可以使用BeautifulSoup。这是医生。这正是你想要的

这是一段python代码

>>> import re
>>> s = '<span class="address">413 W. Street</span><br><span class="phone">218-999-1020</span>, <span class="region">WA</span> <span class="postal-code">87112</span><br>'
>>> re.findall(r'address">(.*?)<.*phone">(.*?)<.*region">(.*?)<.*postal-code">(.*?)<', s)
[('413 W. Street', '218-999-1020', 'WA', '87112')]
>>>

>>重新导入
>>>南部='413 W.街
218-999-1020，华盛顿87112
'
>>>re.findall（r'address“>（.*？）（.*？）您不应该使用正则表达式来解析html。这里有很好的解释：

不过，如果您知道要解析的html文本的确切结构，可以尝试使用此正则表达式（为C#程序准备，因此可能会根据您的代码语言而有所不同）：
\n您用什么基本语言解析HTML？我想当然地认为，在您的代码得到HTML之前，您无权重新格式化HTML。很抱歉，我理解错了问题。我尝试删除此问题，但无法删除。我已在此处发布了新问题：
\<span[^">]*class="([^"]+)[^>]*>([^<]*)




[regex]相关文章推荐



                                                        
Regex删除包含特定单词的Java注释块
regexreplace 
Regex 用于匹配正确字符串的正则表达式
regex 
Regex 针对不同语言版本的IIS重定向
regexiis 
Regex 正则表达式到limix@符号前的最大字符长度
regex 
Regex 谷歌分析：你能搜索和替换以捕获URL段吗？
regexgoogle-analytics 
Regex 提取IP:端口
regexdelphi 
Regex 给定一个特定的正则表达式，如果到达某个单词，如何停止搜索？
regex 
Regex 在正则表达式匹配中匹配变量内容无效
regexperl 
Regex 在文本中查找特定单词的一些问题
regexpython-2.7 
Regex通过匹配最后一个单词来获取行，但不应选择最后一个单词
regex 
Regex Can'；似乎无法为sed命令获取正确的正则表达式
regexcsvunixawksed 
Regex perl正则表达式匹配所有IPv4地址
regexperl 
Regex 长度大于5的正则表达式模式
regexshell 
Regex 如何使用正则表达式仅检索单词
regexscala 
Regex 用于在nodepad中标记重复xml列的正则表达式++
regexxml 
Regex .htaccess正在将查询字符串重写到路径
regexapache.htaccessmod-rewrite 
LinuxBashRegex只找到第一个匹配项
regexlinux 
Regex 正则表达式搜索文件中某个节或文本块中的内容
regexlinux 
Regex 两个数字的正则表达式及其之间的空格
regex 
Regex 正则表达式验证中的十进制或数值
regexvalidation 
                                       





随机文章推荐


                                        

                                        
                                        


                                                
                                                        [html]相关推荐
                                                        
Html 用于类似wiki标记的正则表达式转换
									Html
							 									Regex
							 
Html 如何摆脱我的选择周围的选择框
									Html
							 									Css
							 
在Chrome扩展中使用多个HTML文件
									Html
							 									Google Chrome Extension
							 
Html IE（所有版本）在内容溢出时忽略高度
									Html
							 									Css
							 									Internet Explorer
							 
Html 如何删除页面底部顶部e中的空格？
									Html
							 									Css
							 
HTML 5视频无法在Firefox 7上播放
									Html
							 									Firefox
							 
Html 不渲染链接的Css
									Html
							 									Css
							 
Html webkit框圆角的困难
									Html
							 									Css
							 
Html 在CSS背景图像中向上移动文本
									Html
							 									Css
							 
Html 是否可以从广告单元预填充表单？
									Html
							 									Forms
							 									Iframe
							 									Flash
							 
Html 如果我为我的网站在FTP中添加字体，当我添加字体时，我应该将其放在FTP中的什么位置以及如何使用字体？
									Html
							 									Css
							 									Fonts
							 									Web
							 									Ftp
							 
Html 圆形图像中的链接
									Html
							 									Twitter Bootstrap
							 
Html 右侧面板与左侧面板一起增长，即使未嵌套
									Html
							 									Css
							 
仅接受html表单中的名称和空格
									Html
							 									Forms
							 									Validation
							 
Html 引导页脚覆盖内容
									Html
							 									Css
							 									Twitter Bootstrap
							 									Twitter Bootstrap 3
							 
Html 从FTP播放Chrome opus文件
									Html
							 									Google Chrome
							 									Ftp
							 
Html 在块引号的左侧插入文本
									Html
							 									Css
							 
Html 使用'；：第n种类型'；一起选择所有子元素，而不是单独选择
									Html
							 									Css
							 
Html 媒体查询被原件忽略（更高的“查询”）
									Html
							 									Css
							 
将vba中的值插入html列表
									Html
							 									Excel
							 									Vba
							 									Internet Explorer
							 
Html 垂直对齐浮动div内部的元素，高度未知
									Html
							 									Css
							 
Html 使用引导的页面布局
									Html
							 									Css
							 									Layout
							 									Twitter Bootstrap 3
							 
Html 2个div并排在第页中央
									Html
							 									Css
							 
Html 垂直对齐我的站点上的图像
									Html
							 									Css
							 
Html 引导类未按预期工作
									Html
							 									Css
							 									Angular
							 									Twitter Bootstrap
							 									Bootstrap 4
							 
Html 如何使图像适合其div CSS
									Html
							 									Css
							 									Image
							 
Html 文本nowrap和最大宽度100%
									Html
							 									Css
							 
Html 张贴选中的复选框值，进入nodejs并保存在MongoDB中
									Html
							 									Node.js
							 
Html 如何从django中的输入中获取值？
									Html
							 									Django
							 
Html 是否与按钮的输入高度相等？
									Html
							 									Css
							 									Twitter Bootstrap
							 									Bootstrap 4
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Sencha Touch 2
Memory Leaks
Path
Ios
Blockchain
Ios7
Here Api
Discord
C++ Cli
Shopify
Amp Html
Java
Hadoop
Clang
Embedded
Sparql
Replace
Data Binding
Hash
Sharepoint
Sms
Struct
Stata
Ssl
Numpy
Racket
Computer Vision
Hyperledger Fabric
Command Line
Time Complexity
Ios8
Tensorflow
Llvm
Powershell
Ms Access
Lotus Notes
Plone
X86
Flash
Openshift
Excel Formula
Content Management System
Mapping
Loopbackjs
Kotlin
Xamarin.forms
Symfony
Cocoa Touch
Caching
Cygwin
Log4net
Phpmyadmin
Typo3
Knockout.js
Tcp
Api
Linker
Sql Server 2005
Excel
Angularjs
Wcf
Android Fragments
Angular
Wix
Fullcalendar
Hive
Oop
Parsing
Jqgrid
Sequelize.js
Magento
Jquery
Ethereum
Cocoa
Asp.net Mvc 5
Extjs
Project Management
Wordpress
Merge
Cuda
Windows Phone
Opencart
Dojo
Html
Artificial Intelligence
Uml
Mapbox
Debian
Aws Lambda
Network Programming
Ruby On Rails 4
Junit
Ruby On Rails 3
Rdf
C++11
Google App Engine
Dask
Mule
Data Structures
Salesforce
Webgl
Jmeter
Jhipster
Mfc
Elixir
Jasper Reports
Io
Sails.js
Deployment
Prolog
Polymer
Filter
Firebase
Atom Editor
Codeigniter
Colors
Algorithm
Swiftui
Dictionary
C#
Javafx
Tkinter
Openlayers 3
Math
Reactjs
Ibm Mq
Build
Yii2
Botframework
Hybris
Speech Recognition
Arrays
Jira
Node.js
Json
Editor
Hyperlink
Objective C
Blackberry
Azure Functions
Django Rest Framework
Verilog
C# 3.0
Amazon Ec2
Tinymce
Serial Port
Oracle Apex
Git
Ios6
Jquery Ui
Google Compute Engine
Dialogflow Es
Sass
Centos
Seo
Gruntjs
Telerik
Process
Visual Studio 2017
Sql Server
Nlp
Devexpress
React Native
Ssh
Air
Windows Phone 7
Apache Flink
Jenkins
Flask
Tcl
Javascript
Safari
Osgi
Cucumber
Silverlight
Scripting
Calendar
Rabbitmq
Xampp
Pandas
Nservicebus
Url
Css
Google Sheets
Properties
Robotframework
Doctrine Orm
Virtualbox
Scikit Learn
EmptyTag
Ipad
Titanium
Cakephp
Apache
Methods
Ibm Midrange
Sphinx
Memory
Jdbc
Ruby On Rails 3.2
Spring Integration


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网