Apache spark 我们如何从ApacheSpark读取非常大的xml文件?

Apache spark 我们如何从ApacheSpark读取非常大的xml文件?,apache-spark,hadoop,apache-kafka,spark-streaming,Apache Spark,Hadoop,Apache Kafka,Spark Streaming,我想在spark上读取一个非常大的xml文件数据集(每个xml文件大小=1TB),并对每个文件启动解析过程,以便最终获得作为表的csv文件 我知道我们可以在Hadoop中使用StreamXmlRecordReader处理xml,然后使用spark的HDFS中的xml数据块,也可以使用databricks中的spark xml库,使用java Mahout XmlInputFormat(Hadoop)解析xml,有人说对于大型xml文件,Hadoop方法更好,所以需要知道解决此问题的最佳方法

我想在spark上读取一个非常大的xml文件数据集(每个xml文件大小=1TB),并对每个文件启动解析过程,以便最终获得作为表的csv文件

我知道我们可以在Hadoop中使用StreamXmlRecordReader处理xml,然后使用spark的HDFS中的xml数据块,也可以使用databricks中的spark xml库,使用java Mahout XmlInputFormat(Hadoop)解析xml,有人说对于大型xml文件,Hadoop方法更好,所以需要知道解决此问题的最佳方法