如何在Python中将类似“lxml.etree”的内容应用于RDD?

如何在Python中将类似“lxml.etree”的内容应用于RDD?,xml,python-3.x,pyspark,rdd,Xml,Python 3.x,Pyspark,Rdd,我是使用spark的初学者,不太熟悉处理XML解析。现在我有了一个名为data的RDD,它包含以下格式的gzip XML: <row Body="xxxxxxxx" CommentCount="0" CreationDate="2008-10-12T20:26:29.397" Id="195995" LastActivityDate="2008-10-12T20:26:29.397" OwnerDisplayName="Eric Wendelin" OwnerUserId="2506

我是使用spark的初学者,不太熟悉处理XML解析。现在我有了一个名为
data
的RDD,它包含以下格式的gzip XML:

<row Body="xxxxxxxx" CommentCount="0"  
CreationDate="2008-10-12T20:26:29.397" Id="195995" 
LastActivityDate="2008-10-12T20:26:29.397" OwnerDisplayName="Eric
Wendelin" OwnerUserId="25066" ParentId="195973" PostTypeId="2" 
Score="0" />

但有些行被分割成多行,有些XML格式不正确

那么如何处理XML解析,比如
lxml.etree
,以获取所有以