如何在Python中将类似“lxml.etree”的内容应用于RDD？_Xml_Python 3.x_Pyspark_Rdd

如何在Python中将类似“lxml.etree”的内容应用于RDD？

xml python-3.x pyspark

如何在Python中将类似“lxml.etree”的内容应用于RDD？,xml,python-3.x,pyspark,rdd,Xml,Python 3.x,Pyspark,Rdd,我是使用spark的初学者，不太熟悉处理XML解析。现在我有了一个名为data的RDD，它包含以下格式的gzip XML： <row Body="xxxxxxxx" CommentCount="0" CreationDate="2008-10-12T20:26:29.397" Id="195995" LastActivityDate="2008-10-12T20:26:29.397" OwnerDisplayName="Eric Wendelin" OwnerUserId="2506

我是使用spark的初学者，不太熟悉处理XML解析。现在我有了一个名为

data

的RDD，它包含以下格式的gzip XML：

<row Body="xxxxxxxx" CommentCount="0"  
CreationDate="2008-10-12T20:26:29.397" Id="195995" 
LastActivityDate="2008-10-12T20:26:29.397" OwnerDisplayName="Eric
Wendelin" OwnerUserId="25066" ParentId="195973" PostTypeId="2" 
Score="0" />

但有些行被分割成多行，有些XML格式不正确

那么如何处理XML解析，比如

lxml.etree

，以获取所有以