在python中，从大量xml文件中提取信息的最有效方法是什么？_Python_Xml_Performance_Large Files_Expat Parser

在python中，从大量xml文件中提取信息的最有效方法是什么？

python xml performance

在python中，从大量xml文件中提取信息的最有效方法是什么？,python,xml,performance,large-files,expat-parser,Python,Xml,Performance,Large Files,Expat Parser,我有一个满目录（~103104）的XML文件，需要从中提取几个字段的内容。我已经测试了不同的xml解析器，因为我不需要验证内容（代价高昂），所以我考虑简单地使用xml.parsers.expat（最快的一个）遍历文件，逐个提取数据有没有更有效的方法？（简单的文本匹配不起作用）我需要为每个新文件（或字符串）发出新的ParserCreate（），还是可以为每个文件重复使用相同的ParserCreate（）有什么警告吗谢谢如果您知道XML文件是使用相同的算法生成的，那么不进行任何XML解析

我有一个满目录（~103104）的XML文件，需要从中提取几个字段的内容。我已经测试了不同的xml解析器，因为我不需要验证内容（代价高昂），所以我考虑简单地使用xml.parsers.expat（最快的一个）遍历文件，逐个提取数据

有没有更有效的方法？（简单的文本匹配不起作用）

我需要为每个新文件（或字符串）发出新的ParserCreate（），还是可以为每个文件重复使用相同的ParserCreate（）

有什么警告吗

谢谢

如果您知道XML文件是使用相同的算法生成的，那么不进行任何XML解析可能会更有效。例如，如果您知道数据位于第3、4和5行，则可以逐行读取文件，然后使用正则表达式

当然，如果文件不是机器生成的，或者来自不同的生成器，或者生成器随时间变化，那么这种方法将失败。然而，我乐观地认为它会更有效率

是否循环使用解析器对象在很大程度上无关紧要。将创建更多的对象，因此单个解析器对象实际上并不重要。

最快的方法是匹配字符串（例如，使用正则表达式），而不是解析XML，这取决于您的XML，这实际上可以工作

但最重要的是：与其考虑几个选项，不如实施它们并在一个小集合上计时。这将需要大致相同的时间，并会给你真实的数字，并推动你前进

编辑：

文件在本地驱动器还是网络驱动器上？网络I/O会在这里杀死你
问题的并行化程度很低——您可以在多台计算机（或多核计算机上的多个进程）之间分割工作

iterparse

import xml.etree.cElementTree as ET
xml_it = ET.iterparse("some.xml")
event, elem = xml_it.next()

event

“end”

xml.dom.ext.reader