Java 如何以拼花格式将11k列数据插入配置单元表?
我正在运行一个spark作业,在该作业中,我尝试在从数据集ds中选择拼花格式后,将11k列数据插入到表中Java 如何以拼花格式将11k列数据插入配置单元表?,java,apache-spark,parquet,Java,Apache Spark,Parquet,我正在运行一个spark作业,在该作业中,我尝试在从数据集ds中选择拼花格式后,将11k列数据插入到表中 ds.repartition(123).write().mode("overwrite").format("parquet").option("spark.sql.parquet.compression.codec", "snappy").insertInto("db.iParquetTable"); 数据大小为1232MB。使用以下配置启动spark作业 spark-submit -v
ds.repartition(123).write().mode("overwrite").format("parquet").option("spark.sql.parquet.compression.codec", "snappy").insertInto("db.iParquetTable");
数据大小为1232MB。使用以下配置启动spark作业
spark-submit -v \
--driver-memory 3g \
--master yarn \
--deploy-mode client \
--num-executors 3 \
--executor-cores 2 \
--executor-memory 2g
--class com.package.Driver \
/user/home/mohit/testRun.jar
但是,在将数据插入parquetTable时,作业被卡住了,在Thread的executors UI上看不到任何执行器在运行。不确定我在这里面临的所有性能问题。非常感谢您的帮助。ds应该是一个数据集吗?那么什么是重新分区(“…”)?重新分区只能获取列和/或分区数。@NirHedvat<代码>重新分区(),正在重新分区数据。在这里,它将创建123个10MB的重新分区,每个分区都知道它的含义。您刚刚将问题从“123”编辑为123(字符串到int)。是的,我这样做了,输入错误。你能帮忙吗?你能详细说明一下吗?ds应该是一个数据集吗?那么什么是重新分区(“…”)?重新分区只能获取列和/或分区数。@NirHedvat<代码>重新分区(),正在重新分区数据。在这里,它将创建123个10MB的重新分区,每个分区都知道它的含义。您刚刚将问题从“123”编辑为123(字符串到int)。是的,我这样做了,输入错误。你能帮忙吗?你能详细说明一下吗?