Hadoop 使用apache Pig选择文本的一部分

Hadoop 使用apache Pig选择文本的一部分,hadoop,mapreduce,apache-pig,bigdata,Hadoop,Mapreduce,Apache Pig,Bigdata,我有很多需要用正则表达式解析的小文本文件,但我只对文本的一部分感兴趣(分隔符是第1节…第n节)。这意味着我需要分离文本的一部分,然后我可以进行解析 我想知道我是否可以用Pig分离文本的一部分?我本来想创建自己的UDF,但在开始这次冒险之前,我来这里是想征求一些建议。您的输入是格式化的还是未格式化的?文件是非结构化的,格式为txt文件。我也在思考相反的问题:寻找一个模式,如果这包含在章节部分中,那么我认为这个模式是好的。请看看PigGyBub,它们有90%的UDF案例。

我有很多需要用正则表达式解析的小文本文件,但我只对文本的一部分感兴趣(分隔符是第1节…第n节)。这意味着我需要分离文本的一部分,然后我可以进行解析


我想知道我是否可以用Pig分离文本的一部分?我本来想创建自己的UDF,但在开始这次冒险之前,我来这里是想征求一些建议。

您的输入是格式化的还是未格式化的?文件是非结构化的,格式为txt文件。我也在思考相反的问题:寻找一个模式,如果这包含在章节部分中,那么我认为这个模式是好的。请看看PigGyBub,它们有90%的UDF案例。