Apache spark 我们如何从ApacheSpark读取非常大的xml文件？_Apache Spark_Hadoop_Apache Kafka_Spark Streaming

Apache spark 我们如何从ApacheSpark读取非常大的xml文件？

apache-spark hadoop apache-kafka

Apache spark 我们如何从ApacheSpark读取非常大的xml文件？,apache-spark,hadoop,apache-kafka,spark-streaming,Apache Spark,Hadoop,Apache Kafka,Spark Streaming,我想在spark上读取一个非常大的xml文件数据集（每个xml文件大小=1TB），并对每个文件启动解析过程，以便最终获得作为表的csv文件我知道我们可以在Hadoop中使用StreamXmlRecordReader处理xml，然后使用spark的HDFS中的xml数据块，也可以使用databricks中的spark xml库，使用java Mahout XmlInputFormat（Hadoop）解析xml，有人说对于大型xml文件，Hadoop方法更好，所以需要知道解决此问题的最佳方法

我想在spark上读取一个非常大的xml文件数据集（每个xml文件大小=1TB），并对每个文件启动解析过程，以便最终获得作为表的csv文件

我知道我们可以在Hadoop中使用StreamXmlRecordReader处理xml，然后使用spark的HDFS中的xml数据块，也可以使用databricks中的spark xml库，使用java Mahout XmlInputFormat（Hadoop）解析xml，有人说对于大型xml文件，Hadoop方法更好，所以需要知道解决此问题的最佳方法