使用pentaho数据集成加载事实表-减少ktr的运行时间

使用pentaho数据集成加载事实表-减少ktr的运行时间,pentaho,Pentaho,我使用pentaho DI将数据插入事实表。但问题是,我正在填充的表格包含10000条记录,并且每天都在增加 在我的填充表中,如果包含10000条记录,并且添加了新的200条记录,那么我需要运行ktr,如果我正在运行ktr文件,那么它会再次截断事实表中的所有10000条数据,并开始插入新的10200条记录 为了避免这种情况,我在表输出步骤中取消选中了truncate选项,并且在事实表中将一个键设置为唯一,并选中Ignore inputs error选项。现在它工作正常,只插入200条记录,但执行

我使用pentaho DI将数据插入事实表。但问题是,我正在填充的表格包含10000条记录,并且每天都在增加

在我的填充表中,如果包含10000条记录,并且添加了新的200条记录,那么我需要运行ktr,如果我正在运行ktr文件,那么它会再次截断事实表中的所有10000条数据,并开始插入新的10200条记录

为了避免这种情况,我在表输出步骤中取消选中了truncate选项,并且在事实表中将一个键设置为唯一,并选中Ignore inputs error选项。现在它工作正常,只插入200条记录,但执行时间相同

我也在ktr中尝试了流查找步骤,但执行时间没有变化

请任何人帮我解决这个问题


提前感谢。

如果您需要捕获所有插入、更新和删除,则
Merge Rows Diff
步骤和
Synchronize after Merge
步骤将完成此操作,并且通常会非常快地完成。

我们谈论的是多少时间?10万排听起来没那么多。您是否尝试过“合并行差异”步骤?我有25000条记录,表中有24个字段,大部分需要8小时才能完成任务。以前我试过索引,有些时间缩短了,但还没有试过合并行差异步骤。每秒8行对我来说速度太慢了。您正在对这些行进行何种处理?还是说它们太宽了?同时,如果需要捕获所有插入、更新和删除操作,我将检查
组合查找更新
步骤和
合并行差异
步骤。看看这些对你是否有用。布莱恩·迈尔斯非常感谢你,合并行这一步对我解决这个问题有很大帮助。。在我的例子中,不仅仅是插入,包括我使用了8段查找过程。现在,我在查找步骤之前加入了合并行步骤和切换案例步骤,令人惊讶的是,这项工作在6分钟内完成了。。。