Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 我应该经常在红移时使用unload命令吗?_Hadoop_Amazon S3_Data Warehouse_Amazon Redshift - Fatal编程技术网

Hadoop 我应该经常在红移时使用unload命令吗?

Hadoop 我应该经常在红移时使用unload命令吗?,hadoop,amazon-s3,data-warehouse,amazon-redshift,Hadoop,Amazon S3,Data Warehouse,Amazon Redshift,我们目前正在使用ETL工具(通过Hadoop)为非技术用户创建一个包含原始数据的csv文件。Dev根据需要为他们创建一个流程,他们根据需要运行该流程。由于我们使用DataLake文件(S3)来创建输出,我们需要将所有事实连接在一起,并运行一些Hadoop需要一段时间才能完成的繁重任务 我们希望这些进程在更短的时间内运行。我的想法是使用UNLOAD命令实现此任务的红移。由于redshift中的数据已经根据业务需求构建,因此通常只需进行一次非常简单的查询即可获得所需的数据,运行时间为2-5分钟 然而

我们目前正在使用ETL工具(通过Hadoop)为非技术用户创建一个包含原始数据的csv文件。Dev根据需要为他们创建一个流程,他们根据需要运行该流程。由于我们使用DataLake文件(S3)来创建输出,我们需要将所有事实连接在一起,并运行一些Hadoop需要一段时间才能完成的繁重任务

我们希望这些进程在更短的时间内运行。我的想法是使用UNLOAD命令实现此任务的红移。由于redshift中的数据已经根据业务需求构建,因此通常只需进行一次非常简单的查询即可获得所需的数据,运行时间为2-5分钟

然而,我不确定是否给我们的用户一个按需运行unload命令的选项(而不是通过构建过程),可能会对红移造成压力

有人能提供一些关于这方面的信息吗。我们预计每天大约有20个查询,时间为2-4分钟

谢谢


Nir

它的要求并不比任何其他选择都高。我建议您为这些用户定义一个特定的WLM队列。通过这种方式,您可以限制他们使用的资源量,并隔离他们对系统其他部分的任何影响。

我每天运行数百次卸载(将红移数据发送到外部API)或备份、还原或深度复制表。我从来没有遇到过问题

性能似乎与等效的SELECT相同(如果使用压缩,则性能会稍高一点)