Hadoop 基于pig/hive的半结构化数据处理

Hadoop 基于pig/hive的半结构化数据处理,hadoop,hive,apache-pig,Hadoop,Hive,Apache Pig,我有如下半结构化数据: col1 col2 col3 col4 1 2 3 [name#aa, address#[perminentaddress#abc,currentaddress#xyg]] 5 9 8 [address#[perminentaddress#dev,currentaddress#pqr],name#bb] 3 4 9 [name#cc,mobile#111,id#66 address#[perminentaddress#

我有如下半结构化数据:

col1 col2 col3 col4
1    2    3    [name#aa, address#[perminentaddress#abc,currentaddress#xyg]]
5    9    8    [address#[perminentaddress#dev,currentaddress#pqr],name#bb]
3    4    9    [name#cc,mobile#111,id#66 address#[perminentaddress#abc,currentaddress#xyg]]
前三列是固定的,第四列可以有任何具有键值对的未知数据。键值对可以嵌套,如上面的示例所示。最重要的是,第四列中的键位置不是固定的,可以有无限多个键

是否可以使用pig/hive处理这些数据

例如,如何从上述所有行获取currentaddress值?(请注意,键位置不固定,地址键有嵌套键)


谢谢。

您可以使用嵌套的数据映射来表示第4列,请参见

然后您将能够访问
currentaddress
作为
col4#'address'#'currentaddress'


要以这种方式表示您的数据,您可能需要编写一个。

是的,可以用pig进行处理,您没有提出非常具体的问题。我已将上述问题编辑为更具体的问题。