Azure data factory 对于HDInsightHive类型的活动,输出数据集真的很重要吗?

Azure data factory 对于HDInsightHive类型的活动,输出数据集真的很重要吗?,azure-data-factory,Azure Data Factory,我们在管道中创建的任何活动都必须有一个输出数据集——我认为如果该活动是“HDInsightHive”类型,那么这纯粹是语法规则。因为无论如何,实际输出目标将由HQL查询本身确定。例如,在我们的示例中,HQL查询从某个表中选择行,并将行插入到其他外部表中。因此,最终决定输出走向的是HQL。目标表的名称显示在HQL本身中(插入覆盖表名..)。因此,在这种情况下,在活动中定义的输出数据集似乎只是充当了一种语法粘合剂,因此必须存在于那里。这是正确的吗?确实,您可以像在USQL查询中一样,在HQL查询中定

我们在管道中创建的任何活动都必须有一个输出数据集——我认为如果该活动是“HDInsightHive”类型,那么这纯粹是语法规则。因为无论如何,实际输出目标将由HQL查询本身确定。例如,在我们的示例中,HQL查询从某个表中选择行,并将行插入到其他外部表中。因此,最终决定输出走向的是HQL。目标表的名称显示在HQL本身中(插入覆盖表名..)。因此,在这种情况下,在活动中定义的输出数据集似乎只是充当了一种语法粘合剂,因此必须存在于那里。这是正确的吗?

确实,您可以像在USQL查询中一样,在HQL查询中定义数据将到达的位置。在我看来,输出数据集的主要功能是允许您将输出导入另一个活动。如果未定义输出数据集,或者使用与HQL脚本放置输出的位置不匹配的文件夹对其进行定义,则无法将该数据集用作其他活动的输入。如果您的所有管道都以HQL活动结束,并且在该点之后您再也不需要做任何事情,那么我可以看到,似乎不需要输出数据集