Hadoop 使用Pig脚本删除文件的第一行和最后一行_Hadoop_Apache Pig_Bigdata

Hadoop 使用Pig脚本删除文件的第一行和最后一行

hadoop apache-pig

Hadoop 使用Pig脚本删除文件的第一行和最后一行,hadoop,apache-pig,bigdata,Hadoop,Apache Pig,Bigdata,我想使用pig脚本删除HDFS中文件的第一行和最后一行。我尝试使用秩来实现这一点，它起了作用，但我应该知道要删除它的最后一个秩数，但我的文件是动态的，它可以有更多或更少的行，在这种情况下，我找不到任何内容。请帮忙编辑：我的数据非常庞大，因此我无法创建模式，也无法对它们进行分组以使用MIN（）如何实现这一点？一旦有可用的秩，就可以通过MIN和MAX eval函数获得要排除的第一个和最后一个秩（即文件的第一行和最后一行）。这样，您就不需要硬编码秩过滤器注意：这适用于pig版本0.16.0。

我想使用pig脚本删除HDFS中文件的第一行和最后一行。我尝试使用秩来实现这一点，它起了作用，但我应该知道要删除它的最后一个秩数，但我的文件是动态的，它可以有更多或更少的行，在这种情况下，我找不到任何内容。请帮忙
编辑：
我的数据非常庞大，因此我无法创建模式，也无法对它们进行分组以使用MIN（）如何实现这一点？
一旦有可用的秩，就可以通过MIN和MAX eval函数获得要排除的第一个和最后一个秩（即文件的第一行和最后一行）。这样，您就不需要硬编码秩过滤器

注意：这适用于pig版本0.16.0。
一旦有可用的秩，就可以通过最小和最大求值函数获得要排除的第一个和最后一个秩（即文件的第一行和最后一行）。这样，您就不需要硬编码秩过滤器

注意：这适用于pig版本0.16.0。
还有其他方法可以实现吗？我的数据太大，无法创建模式并对它们进行分组。在这种情况下，Min不适用于我。警告，这将删除第一行或最后一行负载。如果使用load来加载包含多个文件的目录，则需要更复杂的技巧才能获得所需的结果！有没有其他方法可以实现这一点？我的数据量很大，我无法创建模式并对它们进行分组。在这种情况下，Min不适用于我。警告，这将删除第一行或最后一行负载。如果使用load来加载包含多个文件的目录，则需要更复杂的技巧才能获得所需的结果！