Azure 如何运行HDInsight作业
关于HDInsight jobs方法的几个问题 1) 如何安排HDInsight作业?有什么现成的解决办法吗?例如,如果我的系统将不断收集大量新的输入文件,我们需要在这些文件上运行map/reduce作业,那么建议采用什么方法来实现持续处理 2) 从价格角度来看,建议在没有作业运行时删除HDInsight群集。据我所知,如果我们决定每天运行作业,就没有办法自动化这个过程?这里有什么建议吗 3) 是否有办法确保相同的文件不会被多次处理?你如何解决这个问题Azure 如何运行HDInsight作业,azure,hadoop,azure-hdinsight,Azure,Hadoop,Azure Hdinsight,关于HDInsight jobs方法的几个问题 1) 如何安排HDInsight作业?有什么现成的解决办法吗?例如,如果我的系统将不断收集大量新的输入文件,我们需要在这些文件上运行map/reduce作业,那么建议采用什么方法来实现持续处理 2) 从价格角度来看,建议在没有作业运行时删除HDInsight群集。据我所知,如果我们决定每天运行作业,就没有办法自动化这个过程?这里有什么建议吗 3) 是否有办法确保相同的文件不会被多次处理?你如何解决这个问题 4) 我可能弄错了,但看起来每个hdins
4) 我可能弄错了,但看起来每个hdinsight作业都需要一个新的输出存储文件夹来存储结果。合并这些结果以使报告始终在整个数据集上工作的最佳实践是什么?好的,这里有很多问题!我希望这里有一些快速的答案