Apache spark 当写入s3或gs时,设置parquet.block.size是否重要?
我们知道建议将Apache spark 当写入s3或gs时,设置parquet.block.size是否重要?,apache-spark,parquet,Apache Spark,Parquet,我们知道建议将parquet.block.size设置为HDFS块大小,但这对HDFS非常重要 当写入云存储时,如s3或gs,是否会这样做 物质设置拼花地板.方块.尺寸 对于在中使用此数据的下游作业,并行性会发生什么变化 像下面这样的案例 例如: 如果我将spark数据帧写入s3或gs,大约为20 GB 每个.parquet文件大小为2 GB,设置为parquet.block.size= 512MB 每个.parquet文件大小为2 GB,设置为parquet.block.size=64 MB
parquet.block.size
设置为HDFS块大小,但这对HDFS非常重要
拼花地板.方块.尺寸
- 每个.parquet文件大小为2 GB,设置为parquet.block.size= 512MB
- 每个.parquet文件大小为2 GB,设置为parquet.block.size=64 MB
- 最大未压缩块大小为256 MB