Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 通过spark shell进行Hadoop配置设置似乎没有效果_Scala_Apache Spark_Hadoop_Parquet_Apache Spark 2.2 - Fatal编程技术网

Scala 通过spark shell进行Hadoop配置设置似乎没有效果

Scala 通过spark shell进行Hadoop配置设置似乎没有效果,scala,apache-spark,hadoop,parquet,apache-spark-2.2,Scala,Apache Spark,Hadoop,Parquet,Apache Spark 2.2,我试图通过spark shell编辑hadoop块大小配置,以便生成的拼花地板零件文件具有特定的大小。我尝试过这样设置几个变量:- val blocksize:Int = 1024*1024*1024 sc.hadoopConfiguration.setInt("dfs.blocksize", blocksize) //also tried dfs.block.size sc.hadoopConfiguration.setInt("parquet.block.size", blocksize)

我试图通过spark shell编辑hadoop块大小配置,以便生成的拼花地板零件文件具有特定的大小。我尝试过这样设置几个变量:-

val blocksize:Int = 1024*1024*1024
sc.hadoopConfiguration.setInt("dfs.blocksize", blocksize) //also tried dfs.block.size
sc.hadoopConfiguration.setInt("parquet.block.size", blocksize)

val df = spark.read.csv("/path/to/testfile3.txt")
df.write.parquet("/path/to/output/")
测试文件是一个大约3.5 GB的大型文本文件。但是,无论我指定的块大小或采用的方法是什么,创建的零件文件数量及其大小都是相同的。我可以更改使用重新分区和合并函数生成的零件文件的数量,但我必须使用不会以任何方式洗牌数据帧中数据的方法

我也尝试过具体说明

f、 write.option(“parquet.block.size”,1048576).parquet(“/path/to/output”)

但是没有运气。有人能强调一下我做错了什么吗?还有没有其他方法可以改变写入hdfs的拼花地板块大小