如何使用Pentaho处理Amazon红移中缓慢变化的维度?
由于Amazon Redshift针对读取而不是写入进行了优化,我如何使用ETL工具(在我的例子中是Pentaho数据集成)管理缓慢变化的维度过程 由于ETL工具将逐行进行更新/插入(维度查找/更新),因此性能将极低如何使用Pentaho处理Amazon红移中缓慢变化的维度?,pentaho,amazon-redshift,data-integration,scd,Pentaho,Amazon Redshift,Data Integration,Scd,由于Amazon Redshift针对读取而不是写入进行了优化,我如何使用ETL工具(在我的例子中是Pentaho数据集成)管理缓慢变化的维度过程 由于ETL工具将逐行进行更新/插入(维度查找/更新),因此性能将极低 有人经历过这个问题吗 红移中的更新速度较慢,因为更新是在事务中执行的一系列操作: 选择要更新到临时表中的行 删除那些行 根据更新条件更新临时表中的那些行 将更新的行追加到原始表中 所有这些都必须跨节点协调 更新一行可能需要多达1000行的时间。更糟糕的是,由于更新时间太长,需要写锁
有人经历过这个问题吗 红移中的更新速度较慢,因为更新是在事务中执行的一系列操作:
实际更改/插入维度行的百分比是多少?如果百分比很小(<20%左右),那么
维度查找/更新
步骤可能就可以了。我也面临同样的疑问。让PDI在MySQL的本地实例中维护维度表,然后每次执行截断并完全加载到红移中可能会更快。你最后是怎么做的?