python正则表达式匹配任何有效的英语句子
我想知道是否有可能编写一个python正则表达式来匹配任何有效的英语句子,这些句子可以包含字母数字字符和特殊字符。python正则表达式匹配任何有效的英语句子,python,regex,text-manipulation,Python,Regex,Text Manipulation,我想知道是否有可能编写一个python正则表达式来匹配任何有效的英语句子,这些句子可以包含字母数字字符和特殊字符。 基本上,我想从XML文件中提取一些特定元素。这些特定元素将具有以下形式: <p o=<Any Number>> <Any English sentence> </p> 例如: <p o ="1"> The quick brown fox jumps over the lazy dog </p> 敏捷
基本上,我想从XML文件中提取一些特定元素。这些特定元素将具有以下形式:
<p o=<Any Number>> <Any English sentence> </p>
例如:
<p o ="1"> The quick brown fox jumps over the lazy dog </p>
敏捷的棕色狐狸跳过懒惰的狗
或
这是一个数字12.90
我们可以很容易地为
<p o=<Any Number>>
和
标签。但我感兴趣的是通过编写正则表达式组来提取这些标记之间的句子
有人能建议使用正则表达式来解决上述问题吗
另外,如果你能建议一种变通方法,那么它也会对我很有帮助 使用XML解析器,例如,regex不适合此任务。
例如:
import lxml.etree
// First we parse the xml
doc = lxml.etree.fromstring('<p o ="2"> And This is a number 12.90! </p>')
// Then we use xpath to extract the element we need
doc.xpath('/p/text()')
导入lxml.etree
//首先,我们解析xml
doc=lxml.etree.fromstring(“这是一个数字12.90!
”)
//然后,我们使用xpath提取所需的元素
doc.xpath(“/p/text()”)
有关XPATH的更多信息,请访问:。使用XML解析器,例如,regex不适合此任务。
例如:
import lxml.etree
// First we parse the xml
doc = lxml.etree.fromstring('<p o ="2"> And This is a number 12.90! </p>')
// Then we use xpath to extract the element we need
doc.xpath('/p/text()')
导入lxml.etree
//首先,我们解析xml
doc=lxml.etree.fromstring(“这是一个数字12.90!
”)
//然后,我们使用xpath提取所需的元素
doc.xpath(“/p/text()”)
您可以在以下位置阅读有关XPATH的更多信息:。您应该真正使用xml解析器。示例。您应该真正使用xml解析器。这里的示例。为什么应该使用类似BeautifulSoup或lxml的东西来解析XML而不是regexp。为什么应该使用BeautifulSoup或lxml之类的东西来解析XML而不是regexp。