Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/364.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 如何以拼花格式将11k列数据插入配置单元表?_Java_Apache Spark_Parquet - Fatal编程技术网

Java 如何以拼花格式将11k列数据插入配置单元表?

Java 如何以拼花格式将11k列数据插入配置单元表?,java,apache-spark,parquet,Java,Apache Spark,Parquet,我正在运行一个spark作业,在该作业中,我尝试在从数据集ds中选择拼花格式后,将11k列数据插入到表中 ds.repartition(123).write().mode("overwrite").format("parquet").option("spark.sql.parquet.compression.codec", "snappy").insertInto("db.iParquetTable"); 数据大小为1232MB。使用以下配置启动spark作业 spark-submit -v

我正在运行一个spark作业,在该作业中,我尝试在从数据集ds中选择拼花格式后,将11k列数据插入到表中

ds.repartition(123).write().mode("overwrite").format("parquet").option("spark.sql.parquet.compression.codec", "snappy").insertInto("db.iParquetTable");
数据大小为1232MB。使用以下配置启动spark作业

spark-submit -v \
--driver-memory 3g \
--master yarn \
--deploy-mode client \
--num-executors 3 \
--executor-cores 2 \
--executor-memory 2g
--class com.package.Driver \
/user/home/mohit/testRun.jar

但是,在将数据插入parquetTable时,作业被卡住了,在Thread的executors UI上看不到任何执行器在运行。不确定我在这里面临的所有性能问题。非常感谢您的帮助。

ds应该是一个数据集吗?那么什么是重新分区(“…”)?重新分区只能获取列和/或分区数。@NirHedvat<代码>重新分区(),正在重新分区数据。在这里,它将创建123个10MB的重新分区,每个分区都知道它的含义。您刚刚将问题从“123”编辑为123(字符串到int)。是的,我这样做了,输入错误。你能帮忙吗?你能详细说明一下吗?ds应该是一个数据集吗?那么什么是重新分区(“…”)?重新分区只能获取列和/或分区数。@NirHedvat<代码>重新分区(),正在重新分区数据。在这里,它将创建123个10MB的重新分区,每个分区都知道它的含义。您刚刚将问题从“123”编辑为123(字符串到int)。是的,我这样做了,输入错误。你能帮忙吗?你能详细说明一下吗?