Pentaho 转换执行时间太长

Pentaho 转换执行时间太长,pentaho,kettle,pdi,pentaho-spoon,Pentaho,Kettle,Pdi,Pentaho Spoon,我的资料里有130000条记录。当我尝试运行转换时,16小时后它仍在运行 增加spoon.bat脚本文件的内存堆是否有助于减少转换的执行时间?(从PENTAHO_DI_JAVA_OPTIONS=“-Xmx256m-XX:MaxPermSize=256m更改为PENTAHO_DI_JAVA_OPTIONS=“-Xmx2g-XX:MaxPermSize=256m) 还有哪些方法可以提高转换的性能?我还需要加快转换的速度。这是我的设置PENTAHO_DI_JAVA_OPTIONS=“-Xmx2048m

我的资料里有130000条记录。当我尝试运行转换时,16小时后它仍在运行

增加spoon.bat脚本文件的内存堆是否有助于减少转换的执行时间?(从
PENTAHO_DI_JAVA_OPTIONS=“-Xmx256m-XX:MaxPermSize=256m
更改为
PENTAHO_DI_JAVA_OPTIONS=“-Xmx2g-XX:MaxPermSize=256m


还有哪些方法可以提高转换的性能?

我还需要加快转换的速度。这是我的设置
PENTAHO_DI_JAVA_OPTIONS=“-Xmx2048m”“-XX:MaxPermSize=1024m”

最终速度取决于变换的设计。一般而言:

  • 运行机器/服务器的硬件参数。(就我而言,在新服务器上运行作业的速度大约是在笔记本电脑上运行作业的2倍)。在运行同一台机器的过程中,是否有其他进程在同一台机器上运行
  • 转换优化了吗?您经常使用JavaScript步骤吗?它们比较慢(尝试用其他步骤替换它们)。你使用什么样的存储空间?您使用了多少个数据库联接
  • 您是否发现了转型的瓶颈?运行转换时,您可以看到哪些步骤减慢了转换速度(瓶颈)[请参见
    执行结果
    步骤度量
    选项卡,重点关注
    速度
    a
    输入/输出
    ]。例如,数据库连接到远程服务器、合并连接、排序步骤。您可以为这样一个步骤设置更多实例(右键单击该步骤>
    更改要启动的副本数。
    >将其设置为2个或更多>重新运行转换并查看差异)
  • 使用缓存选项进行数据库查找
  • 尽可能避免“慢步骤”(需要处理所有行以创建结果的步骤):排序行、合并联接、唯一行、行反规范化。当第一行到达这样一个步骤时,它一直等待,直到最后一行到达。然后该步骤处理所有行,创建一个结果并继续转换
  • 尝试使用群集
进一步阅读:

  • 作者:Pentaho数据集成主管Matt Casters
  • 罗德里戈·哈塞斯在潘塔霍入口

    • 我还需要加快转型。这是我的设置
      PENTAHO_DI_JAVA_OPTIONS=“-Xmx2048m”“-XX:MaxPermSize=1024m”

      最终速度取决于变换的设计。一般而言:

      • 运行机器/服务器的硬件参数。(就我而言,在新服务器上运行作业的速度大约是在笔记本电脑上运行作业的2倍)。在运行同一台机器的过程中,是否有其他进程在同一台机器上运行
      • 转换优化了吗?您经常使用JavaScript步骤吗?它们比较慢(尝试用其他步骤替换它们)。你使用什么样的存储空间?您使用了多少个数据库联接
      • 您是否发现了转型的瓶颈?运行转换时,您可以看到哪些步骤减慢了转换速度(瓶颈)[请参见
        执行结果
        步骤度量
        选项卡,重点关注
        速度
        a
        输入/输出
        ]。例如,数据库连接到远程服务器、合并连接、排序步骤。您可以为这样一个步骤设置更多实例(右键单击该步骤>
        更改要启动的副本数。
        >将其设置为2个或更多>重新运行转换并查看差异)
      • 使用缓存选项进行数据库查找
      • 尽可能避免“慢步骤”(需要处理所有行以创建结果的步骤):排序行、合并联接、唯一行、行反规范化。当第一行到达这样一个步骤时,它一直等待,直到最后一行到达。然后该步骤处理所有行,创建一个结果并继续转换
      • 尝试使用群集
      进一步阅读:

      • 作者:Pentaho数据集成主管Matt Casters
      • 罗德里戈·哈塞斯在潘塔霍入口
    • 避免排序操作
    • 尽可能避免使用Java脚本
    • 一个大的JavaScript步骤比三个连续的小步骤运行得快
    • 在转换设置的杂项选项卡中勾选“管理线程优先级”
    • 如果可能,请不要删除“选择值”中的字段
    • 开始时应用份数 参考:-
    • 避免排序操作
    • 尽可能避免使用Java脚本
    • 一个大的JavaScript步骤比三个连续的小步骤运行得快
    • 在转换设置的杂项选项卡中勾选“管理线程优先级”
    • 如果可能,请不要删除“选择值”中的字段
    • 开始时应用份数 参考:-

    • 你有没有检查过你的转型瓶颈在哪里?@bolav这和你在我之前的帖子中建议我的转型是一样的。我只更改了源数据,列名及其元数据也是相同的。但您需要使用Spoon.profiling对其进行分析,就像在什么中一样?您是否检查了存在瓶颈的转换?@bolav这是您在上一篇文章中建议我的相同转换。我只更改了源数据,列名和它的元数据也是一样的。但是你需要用Spoon.profiling来评测它,就像在什么地方一样?