Hadoop 使用apache Pig选择文本的一部分_Hadoop_Mapreduce_Apache Pig_Bigdata

Hadoop 使用apache Pig选择文本的一部分

hadoop mapreduce apache-pig

Hadoop 使用apache Pig选择文本的一部分,hadoop,mapreduce,apache-pig,bigdata,Hadoop,Mapreduce,Apache Pig,Bigdata,我有很多需要用正则表达式解析的小文本文件，但我只对文本的一部分感兴趣（分隔符是第1节…第n节）。这意味着我需要分离文本的一部分，然后我可以进行解析我想知道我是否可以用Pig分离文本的一部分？我本来想创建自己的UDF，但在开始这次冒险之前，我来这里是想征求一些建议。您的输入是格式化的还是未格式化的？文件是非结构化的，格式为txt文件。我也在思考相反的问题：寻找一个模式，如果这包含在章节部分中，那么我认为这个模式是好的。请看看PigGyBub，它们有90%的UDF案例。

我有很多需要用正则表达式解析的小文本文件，但我只对文本的一部分感兴趣（分隔符是第1节…第n节）。这意味着我需要分离文本的一部分，然后我可以进行解析

我想知道我是否可以用Pig分离文本的一部分？我本来想创建自己的UDF，但在开始这次冒险之前，我来这里是想征求一些建议。

您的输入是格式化的还是未格式化的？文件是非结构化的，格式为txt文件。我也在思考相反的问题：寻找一个模式，如果这包含在章节部分中，那么我认为这个模式是好的。请看看PigGyBub，它们有90%的UDF案例。