Amazon s3 Vertica S3Export-数据质量问题与#x27;分区';条款

Amazon s3 Vertica S3Export-数据质量问题与#x27;分区';条款,amazon-s3,amazon-redshift,vertica,Amazon S3,Amazon Redshift,Vertica,我们正在尝试将几个大型Vertica表的数据导出到AWSS3上的文件中。 S3Export带分区(最佳/或任何其他列)成功导出文件。考虑到数据量,虽然速度不是很快,但我们觉得性能还可以。但是,我们意识到这些文件存在数据质量问题,特别是“日期”列。我们注意到许多记录的日期列值不正确 经过一些自我研究,发现-‘PARTITION BEST’或‘PARTITION on columns’不建议在线程不安全的UDT上使用要使用的是分区节点。 “分区节点”似乎可以准确地导出所有数据,但是它只为每个节点生成

我们正在尝试将几个大型Vertica表的数据导出到AWSS3上的文件中。 S3Export带分区(最佳/或任何其他列)成功导出文件。考虑到数据量,虽然速度不是很快,但我们觉得性能还可以。但是,我们意识到这些文件存在数据质量问题,特别是“日期”列。我们注意到许多记录的日期列值不正确

经过一些自我研究,发现-‘PARTITION BEST’或‘PARTITION on columns’不建议在线程不安全的UDT上使用要使用的是分区节点。 “分区节点”似乎可以准确地导出所有数据,但是它只为每个节点生成一个文件,并且需要更长的时间。这也导致了巨大的文件

由于我们对这些导出的文件有进一步的处理要求(复制到红移数据库),所以我们需要它们小得多


关于是否可以获得S3Export的建议,请在多个较小的文件中提供准确的数据?

来自Vertica论坛管理员的回复-

Vertica 9.1.1-1中有一个补丁(于2018年8月27日发布)。VER-63693-S3。在此版本之前,当数据包含时间/日期值时,S3Export不是线程安全的。这意味着在此修复之前导出时间/日期值时,S3Export不应与PARTITION BEST一起使用。 见: