Twitter 如何在pig中使用RCFILEPIG存储
我想将一个文本文件加载到pig中,然后将其存储为rc文件。为此,我发现twitter在这个链接中提供了一个存储自定义项Twitter 如何在pig中使用RCFILEPIG存储,twitter,hadoop,apache-pig,elephantbird,Twitter,Hadoop,Apache Pig,Elephantbird,我想将一个文本文件加载到pig中,然后将其存储为rc文件。为此,我发现twitter在这个链接中提供了一个存储自定义项 有人能告诉我如何编译它并在我的pig代码中使用它吗?包括所有twitter依赖项和pig JAR并编译RCFilePigStorage.java。如果您想更改代码中的某些特定行为,也可以进行更改,并可以将其重命名为MyRCFilePigStorage.java 现在获取编译后生成的类文件,并创建一个名为MyRCUdf.jar的jar文件。在脚本中注册这个jar Registe
有人能告诉我如何编译它并在我的pig代码中使用它吗?包括所有twitter依赖项和pig JAR并编译RCFilePigStorage.java。如果您想更改代码中的某些特定行为,也可以进行更改,并可以将其重命名为MyRCFilePigStorage.java 现在获取编译后生成的类文件,并创建一个名为MyRCUdf.jar的jar文件。在脚本中注册这个jar
Register MyRCUdf.jar;
* your pig logic*
Store 'data' using MyRCFilePigStorage();
编辑:考虑twitter依赖项的以下链接。获取源代码,编译并包含在类路径中生成的类
下面的导入语句在编译过程中出错,我不知道从哪里可以得到这些类。你知道怎么解决这个问题吗?事实上,我想知道在pig中使用rcfile的任何替代方法。谢谢1:导入com.twitter.elephantbird.mapreduce.input.MapReduceInputFormatWrapper;2:导入com.twitter.elephantbird.mapreduce.output.RCFileOutputFormat@我已经编辑了答案,以反映您对twitter的依赖性