如何在Python中将类似“lxml.etree”的内容应用于RDD?
我是使用spark的初学者,不太熟悉处理XML解析。现在我有了一个名为如何在Python中将类似“lxml.etree”的内容应用于RDD?,xml,python-3.x,pyspark,rdd,Xml,Python 3.x,Pyspark,Rdd,我是使用spark的初学者,不太熟悉处理XML解析。现在我有了一个名为data的RDD,它包含以下格式的gzip XML: <row Body="xxxxxxxx" CommentCount="0" CreationDate="2008-10-12T20:26:29.397" Id="195995" LastActivityDate="2008-10-12T20:26:29.397" OwnerDisplayName="Eric Wendelin" OwnerUserId="2506
data
的RDD,它包含以下格式的gzip XML:
<row Body="xxxxxxxx" CommentCount="0"
CreationDate="2008-10-12T20:26:29.397" Id="195995"
LastActivityDate="2008-10-12T20:26:29.397" OwnerDisplayName="Eric
Wendelin" OwnerUserId="25066" ParentId="195973" PostTypeId="2"
Score="0" />
但有些行被分割成多行,有些XML格式不正确
那么如何处理XML解析,比如lxml.etree
,以获取所有以