python正则表达式匹配任何有效的英语句子_Python_Regex_Text Manipulation

python正则表达式匹配任何有效的英语句子

python regex

python正则表达式匹配任何有效的英语句子,python,regex,text-manipulation,Python,Regex,Text Manipulation,我想知道是否有可能编写一个python正则表达式来匹配任何有效的英语句子，这些句子可以包含字母数字字符和特殊字符。基本上，我想从XML文件中提取一些特定元素。这些特定元素将具有以下形式： <p o=<Any Number>> <Any English sentence> </p> 例如： <p o ="1"> The quick brown fox jumps over the lazy dog </p> 敏捷

我想知道是否有可能编写一个python正则表达式来匹配任何有效的英语句子，这些句子可以包含字母数字字符和特殊字符。
基本上，我想从XML文件中提取一些特定元素。这些特定元素将具有以下形式：

<p o=<Any Number>> <Any English sentence> </p>

例如：

<p o ="1"> The quick brown fox jumps over the lazy dog </p>

敏捷的棕色狐狸跳过懒惰的狗

或

这是一个数字12.90

我们可以很容易地为

<p o=<Any Number>>

和

标签。但我感兴趣的是通过编写正则表达式组来提取这些标记之间的句子

有人能建议使用正则表达式来解决上述问题吗

另外，如果你能建议一种变通方法，那么它也会对我很有帮助

使用XML解析器，例如，regex不适合此任务。例如：

import lxml.etree
// First we parse the xml
doc = lxml.etree.fromstring('<p o ="2">  And This is a number 12.90! </p>')
// Then we use xpath to extract the element we need
doc.xpath('/p/text()')

导入lxml.etree
//首先，我们解析xml
doc=lxml.etree.fromstring（“这是一个数字12.90！”）
//然后，我们使用xpath提取所需的元素
doc.xpath（“/p/text（）”）

有关XPATH的更多信息，请访问：。

使用XML解析器，例如，regex不适合此任务。例如：

import lxml.etree
// First we parse the xml
doc = lxml.etree.fromstring('<p o ="2">  And This is a number 12.90! </p>')
// Then we use xpath to extract the element we need
doc.xpath('/p/text()')

导入lxml.etree
//首先，我们解析xml
doc=lxml.etree.fromstring（“这是一个数字12.90！”）
//然后，我们使用xpath提取所需的元素
doc.xpath（“/p/text（）”）

您可以在以下位置阅读有关XPATH的更多信息：。

您应该真正使用xml解析器。示例。

您应该真正使用xml解析器。这里的示例。

为什么应该使用类似BeautifulSoup或lxml的东西来解析XML而不是regexp。为什么应该使用BeautifulSoup或lxml之类的东西来解析XML而不是regexp。