Pentaho AmazonEC2中的ETL及其应用

Pentaho AmazonEC2中的ETL及其应用,pentaho,etl,kettle,Pentaho,Etl,Kettle,我用pentaho有一段时间了。我有一个关于ETL基础设施的基本问题。我需要在远程EC2实例上运行该作业,以便从多个数据库(比如2000年左右)提取数据。我需要一台能够在EC2中完成这项工作的机器。这个ETL Ec2将仅用作进程点,并且存储在另一台主机中。现在我需要知道我应该在Amazon中使用哪个实例 These ETL jobs will just have select query and just put in the table output. No complex transform

我用pentaho有一段时间了。我有一个关于ETL基础设施的基本问题。我需要在远程EC2实例上运行该作业,以便从多个数据库(比如2000年左右)提取数据。我需要一台能够在EC2中完成这项工作的机器。这个ETL Ec2将仅用作进程点,并且存储在另一台主机中。现在我需要知道我应该在Amazon中使用哪个实例

These ETL jobs will just have select query and just put in the table output.
No complex transformation and no sorting.
Are the ETL processes CPU intensive or memory intensive?.  
How to decide whether the ETL process is CPU or memory intensive or I/O     intensive?

我想说,这一切都取决于你,我使用m3.medium实例根据我的数据库中的数据,这是非常好的,如果你对执行转换所需的时间没有问题,然后选择一些小规模的实例或使用一些更高的实例