Python从xml中提取文本
我想用python从包含标记的XML文件中提取文本,以及标记中的标记 以下是我的文件的外观:Python从xml中提取文本,python,regex,xml,Python,Regex,Xml,我想用python从包含标记的XML文件中提取文本,以及标记中的标记 以下是我的文件的外观: <p>blablabla</p> <p>blablabla / blablabla,</p> <p>blablabla</p> <p>blablabla / blablabla / blablabla</p> <p>blablabla.</p> 解决这个问题的最佳方法是什么。在这一点
<p>blablabla</p>
<p>blablabla / blablabla,</p>
<p>blablabla</p>
<p>blablabla / blablabla / blablabla</p>
<p>blablabla.</p>
解决这个问题的最佳方法是什么。在这一点上,我想说我是python新手,但已经是一个忠实的粉丝:)首先,请看这篇文章:。这与你的处境密切相关
其次,Python语言附带的
XML
包中有一个非常好的XML解析器。请发布一个真正的HTML示例
first_results = []
lines = open(sys.argv[1])
for l in lines:
re.match(r'<p>[\s\S]*?\.<\/p>', l)
l = l.split("/")
first_results.append(l)
for b in first_results:
b = re.sub(r'(<p>)|(</p>)', r'', b)
blablabla blablabla lablabla blablabla blablabla ect...