Hadoop 我应该经常在红移时使用unload命令吗？_Hadoop_Amazon S3_Data Warehouse_Amazon Redshift

Hadoop 我应该经常在红移时使用unload命令吗？

hadoop amazon-s3 amazon-redshift

Hadoop 我应该经常在红移时使用unload命令吗？,hadoop,amazon-s3,data-warehouse,amazon-redshift,Hadoop,Amazon S3,Data Warehouse,Amazon Redshift,我们目前正在使用ETL工具（通过Hadoop）为非技术用户创建一个包含原始数据的csv文件。Dev根据需要为他们创建一个流程，他们根据需要运行该流程。由于我们使用DataLake文件（S3）来创建输出，我们需要将所有事实连接在一起，并运行一些Hadoop需要一段时间才能完成的繁重任务我们希望这些进程在更短的时间内运行。我的想法是使用UNLOAD命令实现此任务的红移。由于redshift中的数据已经根据业务需求构建，因此通常只需进行一次非常简单的查询即可获得所需的数据，运行时间为2-5分钟然而

我们目前正在使用ETL工具（通过Hadoop）为非技术用户创建一个包含原始数据的csv文件。Dev根据需要为他们创建一个流程，他们根据需要运行该流程。由于我们使用DataLake文件（S3）来创建输出，我们需要将所有事实连接在一起，并运行一些Hadoop需要一段时间才能完成的繁重任务

我们希望这些进程在更短的时间内运行。我的想法是使用UNLOAD命令实现此任务的红移。由于redshift中的数据已经根据业务需求构建，因此通常只需进行一次非常简单的查询即可获得所需的数据，运行时间为2-5分钟

然而，我不确定是否给我们的用户一个按需运行unload命令的选项（而不是通过构建过程），可能会对红移造成压力

有人能提供一些关于这方面的信息吗。我们预计每天大约有20个查询，时间为2-4分钟

谢谢

Nir

它的要求并不比任何其他选择都高。我建议您为这些用户定义一个特定的WLM队列。通过这种方式，您可以限制他们使用的资源量，并隔离他们对系统其他部分的任何影响。

我每天运行数百次卸载（将红移数据发送到外部API）或备份、还原或深度复制表。我从来没有遇到过问题

性能似乎与等效的SELECT相同（如果使用压缩，则性能会稍高一点）