Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/xml/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Spark流式处理XML文件并将其转换为数据帧_Xml_Scala_Xml Parsing_Spark Streaming_Spark Structured Streaming - Fatal编程技术网

Spark流式处理XML文件并将其转换为数据帧

Spark流式处理XML文件并将其转换为数据帧,xml,scala,xml-parsing,spark-streaming,spark-structured-streaming,Xml,Scala,Xml Parsing,Spark Streaming,Spark Structured Streaming,我的目标是: 使用Spark从Kafka主题或任何其他HDF流式传输POS日志(XML文件) 将流数据转换为Spark数据帧 分析结果数据帧并将其存储为csv 为了确定我在做什么,我现在正在尝试使用sparkshell在本地运行它。POS日志XML文件每1-2秒使用python脚本生成一次。 批次间隔设置为15秒 val ssc=新的StreamingContext(sc,秒(15)) 将XML流设置为:val XML_stream=ssc.fileStream(路径) 如何有效地将xml\u流

我的目标是:

  • 使用Spark从Kafka主题或任何其他HDF流式传输POS日志(XML文件)
  • 将流数据转换为Spark数据帧
  • 分析结果数据帧并将其存储为csv
  • 为了确定我在做什么,我现在正在尝试使用
    sparkshell
    在本地运行它。POS日志XML文件每1-2秒使用python脚本生成一次。 批次间隔设置为15秒
    val ssc=新的StreamingContext(sc,秒(15))

    将XML流设置为:
    val XML_stream=ssc.fileStream(路径)

    如何有效地将
    xml\u流
    转换为
    Spark数据帧

    我偶然发现了这个包裹。但是,对于如何在从XML文件生成的
    Dstream
    上使用它,它没有给出太多的想法

    我现在使用的是
    scala
    ,因为
    pySpark
    只支持textFileStream