Apache pig ApachePig-基于日期列存储文件

Apache pig ApachePig-基于日期列存储文件,apache-pig,Apache Pig,请帮帮我。。我有下面的场景-输入文件 ID name Time-stamp 1234 kiran 18-MAR-2015 01:02:31 1234 kiran 18-MAR-2015 01:02:31 1234 kiran 19-MAR-2015 01:02:31 1234 kiran 18-MAR-2015 11:02:31 1234 kiran 20-MAR-2015 01:02:00 1234 kiran 11-MAR-2015 21:12:31 1234 kiran 18-MAR

请帮帮我。。我有下面的场景-输入文件

ID name Time-stamp 
1234 kiran 18-MAR-2015 01:02:31
1234 kiran 18-MAR-2015 01:02:31
1234 kiran 19-MAR-2015 01:02:31 
1234 kiran 18-MAR-2015 11:02:31 
1234 kiran 20-MAR-2015 01:02:00
1234 kiran 11-MAR-2015 21:12:31
1234 kiran 18-MAR-2015 01:02:31 
1234 kiran 30-MAR-2015 01:02:31
1234 kiran 22-MAR-2015 01:11:00
1234 kiran 30-MAR-2015 01:02:31
1234 kiran 19-MAR-2015 01:02:00
现在我需要根据时间戳列中的日期编写输出文件,输出为:

user/username/DATE/part-m-000000 
--日期是可变的,因此文件夹名称应为

user/username/18-MAR-2015/part-m-000000 
user/username/19-MAR-2015/part-m-000000 
user/username/20-MAR-2015/part-m-000000 
user/username/22-MAR-2015/part-m-000000 
user/username/30-MAR-2015/part-m-000000 
上述文件包含单个日期的所有值

1234 kiran 18-MAR-2015 01:02:31
1234 kiran 18-MAR-2015 01:02:31 
1234 kiran 18-MAR-2015 11:02:31 
1234 kiran 18-MAR-2015 01:02:31
1234 kiran 19-MAR-2015 01:02:31 
1234 kiran 19-MAR-2015 01:02:00
另一个文件夹名称应为

user/username/18-MAR-2015/part-m-000000 
user/username/19-MAR-2015/part-m-000000 
user/username/20-MAR-2015/part-m-000000 
user/username/22-MAR-2015/part-m-000000 
user/username/30-MAR-2015/part-m-000000 
上述文件包含单个日期的所有值

1234 kiran 18-MAR-2015 01:02:31
1234 kiran 18-MAR-2015 01:02:31 
1234 kiran 18-MAR-2015 11:02:31 
1234 kiran 18-MAR-2015 01:02:31
1234 kiran 19-MAR-2015 01:02:31 
1234 kiran 19-MAR-2015 01:02:00
另一个文件夹名称应为

user/username/18-MAR-2015/part-m-000000 
user/username/19-MAR-2015/part-m-000000 
user/username/20-MAR-2015/part-m-000000 
user/username/22-MAR-2015/part-m-000000 
user/username/30-MAR-2015/part-m-000000 
上述文件包含单个日期的所有值

1234 kiran 20-MAR-2015 01:02:00
1234 kiran 30-MAR-2015 01:02:31
1234 kiran 30-MAR-2015 01:02:31
另一个文件夹名称应为

user/username/18-MAR-2015/part-m-000000 
user/username/19-MAR-2015/part-m-000000 
user/username/20-MAR-2015/part-m-000000 
user/username/22-MAR-2015/part-m-000000 
user/username/30-MAR-2015/part-m-000000 
上述文件包含单个日期的所有值

1234 kiran 20-MAR-2015 01:02:00
1234 kiran 30-MAR-2015 01:02:31
1234 kiran 30-MAR-2015 01:02:31
1234基兰2015年3月22日01:11:00

另一个文件夹名称应为

user/username/18-MAR-2015/part-m-000000 
user/username/19-MAR-2015/part-m-000000 
user/username/20-MAR-2015/part-m-000000 
user/username/22-MAR-2015/part-m-000000 
user/username/30-MAR-2015/part-m-000000 
上述文件包含单个日期的所有值

1234 kiran 20-MAR-2015 01:02:00
1234 kiran 30-MAR-2015 01:02:31
1234 kiran 30-MAR-2015 01:02:31
请帮帮我


谢谢。。Sree

以下步骤应有助于-

  • 使用日期函数将时间戳转换为所需格式
  • 按日期分组
  • 使团体扁平化
  • 使用org.apache.pig.piggybank.storage.MultiStorage保存#3的结果