Python从xml中提取文本_Python_Regex_Xml

Python从xml中提取文本

python regex xml

Python从xml中提取文本,python,regex,xml,Python,Regex,Xml,我想用python从包含标记的XML文件中提取文本，以及标记中的标记以下是我的文件的外观： blablabla blablabla / blablabla, blablabla blablabla / blablabla / blablabla blablabla. 解决这个问题的最佳方法是什么。在这一点

我想用python从包含标记的XML文件中提取文本，以及标记中的标记

以下是我的文件的外观：

<p>blablabla</p>
<p>blablabla / blablabla,</p>
<p>blablabla</p>
<p>blablabla / blablabla / blablabla</p>
<p>blablabla.</p>

解决这个问题的最佳方法是什么。在这一点上，我想说我是python新手，但已经是一个忠实的粉丝：）

首先，请看这篇文章：。这与你的处境密切相关

其次，Python语言附带的

XML

包中有一个非常好的XML解析器。

请发布一个真正的HTML示例

first_results = []

lines = open(sys.argv[1])

for l in lines:
    re.match(r'<p>[\s\S]*?\.<\/p>', l)
    l = l.split("/")
    first_results.append(l)

for b in first_results:
    b = re.sub(r'(<p>)|(</p>)', r'', b)

blablabla   blablabla   lablabla   blablabla   blablabla ect...