python正则表达式匹配任何有效的英语句子

python正则表达式匹配任何有效的英语句子,python,regex,text-manipulation,Python,Regex,Text Manipulation,我想知道是否有可能编写一个python正则表达式来匹配任何有效的英语句子,这些句子可以包含字母数字字符和特殊字符。 基本上,我想从XML文件中提取一些特定元素。这些特定元素将具有以下形式: <p o=<Any Number>> <Any English sentence> </p> 例如: <p o ="1"> The quick brown fox jumps over the lazy dog </p> 敏捷

我想知道是否有可能编写一个python正则表达式来匹配任何有效的英语句子,这些句子可以包含字母数字字符和特殊字符。
基本上,我想从XML文件中提取一些特定元素。这些特定元素将具有以下形式:

<p o=<Any Number>> <Any English sentence> </p>  

例如:

<p o ="1"> The quick brown fox jumps over the lazy dog </p>
敏捷的棕色狐狸跳过懒惰的狗

这是一个数字12.90

我们可以很容易地为

<p o=<Any Number>>

标签。但我感兴趣的是通过编写正则表达式组来提取这些标记之间的句子

有人能建议使用正则表达式来解决上述问题吗

另外,如果你能建议一种变通方法,那么它也会对我很有帮助

使用XML解析器,例如,regex不适合此任务。 例如:

import lxml.etree
// First we parse the xml
doc = lxml.etree.fromstring('<p o ="2">  And This is a number 12.90! </p>')
// Then we use xpath to extract the element we need
doc.xpath('/p/text()')
导入lxml.etree
//首先,我们解析xml
doc=lxml.etree.fromstring(“

这是一个数字12.90!

”) //然后,我们使用xpath提取所需的元素 doc.xpath(“/p/text()”)
有关XPATH的更多信息,请访问:。

使用XML解析器,例如,regex不适合此任务。 例如:

import lxml.etree
// First we parse the xml
doc = lxml.etree.fromstring('<p o ="2">  And This is a number 12.90! </p>')
// Then we use xpath to extract the element we need
doc.xpath('/p/text()')
导入lxml.etree
//首先,我们解析xml
doc=lxml.etree.fromstring(“

这是一个数字12.90!

”) //然后,我们使用xpath提取所需的元素 doc.xpath(“/p/text()”)

您可以在以下位置阅读有关XPATH的更多信息:。

您应该真正使用xml解析器。示例。

您应该真正使用xml解析器。这里的示例。

为什么应该使用类似BeautifulSoup或lxml的东西来解析XML而不是regexp。为什么应该使用BeautifulSoup或lxml之类的东西来解析XML而不是regexp。