Apache pig 猪的分层抽样

Apache pig 猪的分层抽样,apache-pig,Apache Pig,我尝试使用以下代码在pig中实施分层抽样: REGISTER datafu-1.2.0.jar DEFINE SRS datafu.pig.sampling.SimpleRandomSample('0.01'); pop = LOAD 'pop'; grouped = GROUP pop BY metroid; strsampled = FOREACH grouped GENERATE FLATTEN(SRS(pop)); strsampled2 = FOREACH (GROUP strsamp

我尝试使用以下代码在pig中实施分层抽样:

REGISTER datafu-1.2.0.jar
DEFINE SRS datafu.pig.sampling.SimpleRandomSample('0.01');
pop = LOAD 'pop';
grouped = GROUP pop BY metroid;
strsampled = FOREACH grouped GENERATE FLATTEN(SRS(pop));
strsampled2 = FOREACH (GROUP strsampled all) GENERATE FLATTEN(strsampled);
STORE strsampled2 INTO 'strsample';
但我得到了以下错误:

ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2997: Encountered IOException. Call From pdnhwhdplinc04.xxxxx.local/0.0.0.0 to pnnhwhdplinc01.xxxxx.local:8020 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused
有人能提供一些见解吗


谢谢

您是在单节点上还是在分布式上?还有,你从哪里下载“流行音乐”?@BasicHorizon。分布式节点。我确信加载“pop”没有问题,因为我可以使用sample pop 0.01绘制一个简单的随机样本。我不确定的部分是我上传的datafu-1.2.0.jar,并使用Hue向Pig注册。我想知道我是否遗漏了其他内容。当您使用示例pop 0.01时,您是否也像当前一样向“strsample”写入了内容?也就是说,您是否通过删除UDF将其完全隔离为问题?