Hadoop 使用Pig脚本删除文件的第一行和最后一行

Hadoop 使用Pig脚本删除文件的第一行和最后一行,hadoop,apache-pig,bigdata,Hadoop,Apache Pig,Bigdata,我想使用pig脚本删除HDFS中文件的第一行和最后一行。我尝试使用秩来实现这一点,它起了作用,但我应该知道要删除它的最后一个秩数,但我的文件是动态的,它可以有更多或更少的行,在这种情况下,我找不到任何内容。请帮忙 编辑: 我的数据非常庞大,因此我无法创建模式,也无法对它们进行分组以使用MIN()如何实现这一点?一旦有可用的秩,就可以通过MIN和MAX eval函数获得要排除的第一个和最后一个秩(即文件的第一行和最后一行)。这样,您就不需要硬编码秩过滤器 注意:这适用于pig版本0.16.0。

我想使用pig脚本删除HDFS中文件的第一行和最后一行。我尝试使用来实现这一点,它起了作用,但我应该知道要删除它的最后一个秩数,但我的文件是动态的,它可以有更多或更少的行,在这种情况下,我找不到任何内容。请帮忙

编辑:
我的数据非常庞大,因此我无法创建模式,也无法对它们进行分组以使用MIN()如何实现这一点?

一旦有可用的秩,就可以通过MIN和MAX eval函数获得要排除的第一个和最后一个秩(即文件的第一行和最后一行)。这样,您就不需要硬编码秩过滤器


  • 注意:这适用于pig版本0.16.0。

    一旦有可用的秩,就可以通过最小和最大求值函数获得要排除的第一个和最后一个秩(即文件的第一行和最后一行)。这样,您就不需要硬编码秩过滤器


  • 注意:这适用于pig版本0.16.0。

    还有其他方法可以实现吗?我的数据太大,无法创建模式并对它们进行分组。在这种情况下,Min不适用于我。警告,这将删除第一行或最后一行负载。如果使用load来加载包含多个文件的目录,则需要更复杂的技巧才能获得所需的结果!有没有其他方法可以实现这一点?我的数据量很大,我无法创建模式并对它们进行分组。在这种情况下,Min不适用于我。警告,这将删除第一行或最后一行负载。如果使用load来加载包含多个文件的目录,则需要更复杂的技巧才能获得所需的结果!