Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 当写入s3或gs时,设置parquet.block.size是否重要?_Apache Spark_Parquet - Fatal编程技术网

Apache spark 当写入s3或gs时,设置parquet.block.size是否重要?

Apache spark 当写入s3或gs时,设置parquet.block.size是否重要?,apache-spark,parquet,Apache Spark,Parquet,我们知道建议将parquet.block.size设置为HDFS块大小,但这对HDFS非常重要 当写入云存储时,如s3或gs,是否会这样做 物质设置拼花地板.方块.尺寸 对于在中使用此数据的下游作业,并行性会发生什么变化 像下面这样的案例 例如: 如果我将spark数据帧写入s3或gs,大约为20 GB 每个.parquet文件大小为2 GB,设置为parquet.block.size= 512MB 每个.parquet文件大小为2 GB,设置为parquet.block.size=64 MB

我们知道建议将
parquet.block.size
设置为HDFS块大小,但这对HDFS非常重要

  • 当写入云存储时,如s3gs,是否会这样做 物质设置
    拼花地板.方块.尺寸

  • 对于在中使用此数据的下游作业,并行性会发生什么变化 像下面这样的案例

  • 例如:

    如果我将spark数据帧写入s3或gs,大约为20 GB

    • 每个.parquet文件大小为2 GB,设置为parquet.block.size= 512MB
    • 每个.parquet文件大小为2 GB,设置为parquet.block.size=64 MB

    是的,块大小对S3仍然很重要。若要使用来查询拼花地板文件中的行,则可以使用块大小的上限。从S3的“”中选择:

    将Amazon S3 Select与拼花地板一起使用时,还存在其他限制 对象:

    • 最大未压缩块大小为256 MB