Amazon s3 S3中的最佳最大拼花文件大小

Amazon s3 S3中的最佳最大拼花文件大小,amazon-s3,parquet,Amazon S3,Parquet,我试图找出在S3上分割拼花地板数据时的最佳文件大小。美国焊接学会建议。但是否也有一个建议的最大文件大小 Databricks建议,但我不清楚这是否只适用于HDFS。我知道最佳文件大小取决于HDFS块大小。但是,S3没有任何块大小的概念 你是否应该考虑两件事: 1) 对于纯对象存储(如s3),s3端的块大小无关紧要——您不需要对齐任何东西 2) 更重要的是你将如何以及用什么来读取数据? 考虑分区、修剪、ROW组和谓词推送-也将如何加入?p> e、 g:普雷斯托(雅典娜)更喜欢128Mb以上的文件,

我试图找出在S3上分割拼花地板数据时的最佳文件大小。美国焊接学会建议。但是否也有一个建议的最大文件大小

Databricks建议,但我不清楚这是否只适用于HDFS。我知道最佳文件大小取决于HDFS块大小。但是,S3没有任何块大小的概念


你是否应该考虑两件事:

1) 对于纯对象存储(如s3),s3端的块大小无关紧要——您不需要对齐任何东西

2) 更重要的是你将如何以及用什么来读取数据? 考虑分区、修剪、ROW组和谓词推送-也将如何加入?p> e、 g:普雷斯托(雅典娜)更喜欢128Mb以上的文件,但太大会导致并行性差——我通常的目标是1-2gb的文件

Redshift更喜欢大规模并行,因此,例如4个节点,160个文件将比4个节点4个文件更好:)

建议改为: