如何使用pentaho';复制块处理重复数据?

如何使用pentaho';复制块处理重复数据?,pentaho,data-integration,Pentaho,Data Integration,我试图通过Pentaho的复制表向导将MySQL数据库复制到HANA数据库。它自动创建了一个工作流,但我很困惑,如果目标数据库被部分填充,那么它会处理重复的行还是只是复制它们?复制表向导不会分析重复的行。它只是尝试在目标数据库中运行一组insert语句。作为ETL开发人员,您的工作是确保过滤掉重复数据,或者在目标数据库上更新重复数据。检查插入/更新步骤。性能当然要低得多,因为每一行将首先执行数据库查找,并根据查找结果发出insert或update

我试图通过Pentaho的复制表向导将MySQL数据库复制到HANA数据库。它自动创建了一个工作流,但我很困惑,如果目标数据库被部分填充,那么它会处理重复的行还是只是复制它们?

复制表向导不会分析重复的行。它只是尝试在目标数据库中运行一组insert语句。作为ETL开发人员,您的工作是确保过滤掉重复数据,或者在目标数据库上更新重复数据。检查插入/更新步骤。性能当然要低得多,因为每一行将首先执行数据库查找,并根据查找结果发出insert或update