Hadoop 正在分析路径字符串以使用配置单元查找所有祖先_Hadoop_Hive_Apache Pig

Hadoop 正在分析路径字符串以使用配置单元查找所有祖先

hadoop hive apache-pig

Hadoop 正在分析路径字符串以使用配置单元查找所有祖先,hadoop,hive,apache-pig,Hadoop,Hive,Apache Pig,给定包含路径和一些其他列的输入文件： \aa\bb\cc ... \aa\bb\cc\dd\ee ... \xx\yy\zz ... 我正在HiveQL中寻找一种方法，将路径分解为一个不同的列表，包括所有的祖先路径。对于上述样品，结果应为： \aa \aa\bb \aa\bb\cc \aa\bb\cc\dd \aa\bb\cc\dd\ee \xx \xx\yy \xx\yy\zz 在Hive中，有没有办法不用使用自定义JavaUDF就可以做到这一点如果

给定包含路径和一些其他列的输入文件：

\aa\bb\cc         ... 
\aa\bb\cc\dd\ee   ...
\xx\yy\zz         ...

我正在HiveQL中寻找一种方法，将路径分解为一个不同的列表，包括所有的祖先路径。对于上述样品，结果应为：

\aa
\aa\bb
\aa\bb\cc
\aa\bb\cc\dd
\aa\bb\cc\dd\ee
\xx
\xx\yy
\xx\yy\zz

在Hive中，有没有办法不用使用自定义JavaUDF就可以做到这一点

如果不是，那么Pig呢？

我认为这更像是一个mapreduce类型的问题，而不是数据库问题。这就像是对java字符串操作和循环的很好的使用。

我知道如何在java中做到这一点。问题是是否可能使用纯蜂箱或猪。