Spark流式处理XML文件并将其转换为数据帧
我的目标是:Spark流式处理XML文件并将其转换为数据帧,xml,scala,xml-parsing,spark-streaming,spark-structured-streaming,Xml,Scala,Xml Parsing,Spark Streaming,Spark Structured Streaming,我的目标是: 使用Spark从Kafka主题或任何其他HDF流式传输POS日志(XML文件) 将流数据转换为Spark数据帧 分析结果数据帧并将其存储为csv 为了确定我在做什么,我现在正在尝试使用sparkshell在本地运行它。POS日志XML文件每1-2秒使用python脚本生成一次。 批次间隔设置为15秒 val ssc=新的StreamingContext(sc,秒(15)) 将XML流设置为:val XML_stream=ssc.fileStream(路径) 如何有效地将xml\u流
sparkshell
在本地运行它。POS日志XML文件每1-2秒使用python脚本生成一次。
批次间隔设置为15秒
val ssc=新的StreamingContext(sc,秒(15))代码>
将XML流设置为:val XML_stream=ssc.fileStream(路径)代码>
如何有效地将xml\u流
转换为Spark数据帧
我偶然发现了这个包裹。但是,对于如何在从XML文件生成的Dstream
上使用它,它没有给出太多的想法
我现在使用的是scala
,因为pySpark
只支持textFileStream