Apache spark 如何在.net中使用spark xml数据源?

Apache spark 如何在.net中使用spark xml数据源?,apache-spark,.net-core,Apache Spark,.net Core,有没有办法在spark.net/c#作业中使用sparkxml()呢 我能够使用.Net中的spark xml数据源。 以下是测试程序: using Microsoft.Spark.Sql; namespace MySparkApp { class Program { static void Main(string[] args) { SparkSession spa

有没有办法在spark.net/c#作业中使用sparkxml()呢

我能够使用.Net中的spark xml数据源。 以下是测试程序:

using Microsoft.Spark.Sql;

    namespace MySparkApp
    {
        class Program
        {
            static void Main(string[] args)
            {
                SparkSession spark = SparkSession
                    .Builder()
                    .AppName("spark-xml-example")
                    .GetOrCreate();

                DataFrame df = spark.Read()
                    .Option("rowTag", "book")
                    .Format("xml")
                    .Load("books.xml");
                df.Show();

                df.Select("author", "_id")
                    .Write()
                    .Format("xml")
                    .Option("rootTag", "books")
                    .Option("rowTag", "book")
                    .Save("newbooks.xml");
                spark.Stop();
            }
        }
    }
签出并使用“sbt assembly”命令构建程序集jar,将程序集jar复制到dotnet项目工作区

构建项目:dotnetbuild

提交Spark作业:

$SPARK_HOME/bin/spark-submit \
--class org.apache.spark.deploy.dotnet.DotnetRunner \
--jars scala-2.11/spark-xml-assembly-0.10.0.jar \
--master local bin/Debug/netcoreapp3.1/microsoft-spark-2.4.x-0.10.0.jar \
dotnet bin/Debug/netcoreapp3.1/sparkxml.dll