Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 通过抛出错误对组内记录进行采样_Hadoop_Group By_Apache Pig_Sampling - Fatal编程技术网

Hadoop 通过抛出错误对组内记录进行采样

Hadoop 通过抛出错误对组内记录进行采样,hadoop,group-by,apache-pig,sampling,Hadoop,Group By,Apache Pig,Sampling,示例数据:(tsv文件:sampl) 1A 2 b 3 c 当我运行此命令时,我在x=sample raw 1的行中得到错误 错误1200:不匹配的输入'raw'应为左对齐 分组记录不允许采样吗?不能在嵌套块内使用“采样”命令。pig中不支持此命令。 嵌套块中只允许少量操作,如(交叉、区分、筛选、FOREACH、限制和排序依据)。必须在嵌套块之外使用sample命令 另一个问题是,您正在使用默认分隔符ie选项卡加载输入数据。但是您的输入数据是用空格分隔的,所以您需要像这样更改脚本 raw= lo

示例数据:(tsv文件:sampl)

1A

2 b

3 c

当我运行此命令时,我在
x=sample raw 1的行中得到错误
错误1200:不匹配的输入'raw'应为左对齐


分组记录不允许采样吗?

不能在嵌套块内使用“采样”命令。pig中不支持此命令。
嵌套块中只允许少量操作,如(交叉、区分、筛选、FOREACH、限制和排序依据)。必须在嵌套块之外使用sample命令

另一个问题是,您正在使用默认分隔符ie选项卡加载输入数据。但是您的输入数据是用空格分隔的,所以您需要像这样更改脚本

raw= load 'sampl' using PigStorage(' ') as (f1:chararray,f2:chararray);

谢谢你的评论。输入数据有选项卡,但由于复制粘贴错误,此处显示为空格。太好了。如果有帮助,请将此问题标记为已回答。
raw= load 'sampl' using PigStorage(' ') as (f1:chararray,f2:chararray);