Amazon s3 用于拼花地板格式和Snappy压缩的红移复制命令

Amazon s3 用于拼花地板格式和Snappy压缩的红移复制命令,amazon-s3,compression,amazon-redshift,parquet,snappy,Amazon S3,Compression,Amazon Redshift,Parquet,Snappy,我有HDFS格式的数据集,它是拼花格式的,snappy作为压缩编解码器。就我的研究而言,目前红移只接受纯文本、json、avro格式和gzip、lzo压缩编解码器 或者,我将拼花地板格式转换为纯文本,并使用Pig脚本将snappy编解码器更改为gzip 当前是否有方法将数据直接从拼花文件加载到Redshift?否,当前没有方法将拼花格式数据直接加载到Redshift 编辑:从2017年4月19日开始,您可以使用红移光谱直接查询S3上的拼花地板数据。因此,您现在可以使用插入到x SELECT*fr

我有HDFS格式的数据集,它是拼花格式的,snappy作为压缩编解码器。就我的研究而言,目前红移只接受纯文本、json、avro格式和gzip、lzo压缩编解码器

或者,我将拼花地板格式转换为纯文本,并使用Pig脚本将snappy编解码器更改为gzip


当前是否有方法将数据直接从拼花文件加载到Redshift?

否,当前没有方法将拼花格式数据直接加载到Redshift

编辑:从2017年4月19日开始,您可以使用红移光谱直接查询S3上的拼花地板数据。因此,您现在可以使用
插入到x SELECT*from Parquet_data


编辑2:从2018年5月17日开始(对于版本1.0.2294或更高版本的集群),您可以直接将拼花地板和ORC文件加载到Redshift中

你想在帖子里问个问题吗?对不起,是的。我正在寻找解决方案处理拼花格式文件红移而不转换你可以使用Scala和Spark做这个编程。我们可以将数据文件以拼花格式从redshift卸载到s3吗?目前不行。使用胶水“爬虫”为您转换它们。不过,CSV的频谱性能仍然非常好。在卸载中使用MAXFILESIZE 128MB。如何将S3上已有的csv文件转换为拼花格式?有没有办法做到这一点?看看这里的胶水常见问题解答:或者这里的文档中的示例:这里显示了
复制
拼花文件的示例,但是我也记得Redshift不支持拼花格式数据。