Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/316.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用python忽略许多XML文件中的标记_Python_Xml_Xml Parsing - Fatal编程技术网

如何使用python忽略许多XML文件中的标记

如何使用python忽略许多XML文件中的标记,python,xml,xml-parsing,Python,Xml,Xml Parsing,我有很多xml文件,里面有很多文本。这篇文章我需要做小写和删除标点符号。 但是我不知道如何使用python说我希望它忽略所有的标记 我找到了一个名为ElementTree的xml解析器,我有一个正则表达式来查找标记: pattern=re.compile(“您实际上似乎没有使用ElementTree 是一个如何使用ElementTree的示例 将xml.etree.ElementTree作为ET导入 tree=ET.parse('country\u data.xml') root=tree.ge

我有很多xml文件,里面有很多文本。这篇文章我需要做小写和删除标点符号。 但是我不知道如何使用python说我希望它忽略所有的标记

我找到了一个名为ElementTree的xml解析器,我有一个正则表达式来查找标记:
pattern=re.compile(“您实际上似乎没有使用ElementTree

是一个如何使用ElementTree的示例

将xml.etree.ElementTree作为ET导入
tree=ET.parse('country\u data.xml')
root=tree.getroot()
您可以使用递归通过一个函数运行所有标记以清除它们:

def clean_标签(标签):
对于标签中的子项:
清洁标签(儿童)
如果tag.text!=无:
#在此处添加代码以使用小写和标点符号
tag.text=tag.text.lower()
clean_标记(tree.getroot())
clean_xml=ET.tostring(树)

您的XML似乎无效。您有两次。我的意思是要表明,在我的XML文件中有许多标记,我只在第一个标记之前获取文本,并出现以下错误:XML.parsers.expat.expat错误:文档元素后面的垃圾:第173行,第0列第173行位于XML文件中第二个开始的位置。该错误可能是因为le有特殊字符或特定编码。感谢您的回复。当您说“清理”时,您的意思是删除它们?因为我不想删除它们。我只想让它忽略它们,并对文本进行小写+rmv点检。我需要这些标记,以便稍后再执行另一个过程。通过“清理”我的意思是将文本转换为小写,删除标点符号。