Hadoop 通过抛出错误对组内记录进行采样
示例数据:(tsv文件:sampl) 1A 2 b 3 c 当我运行此命令时,我在Hadoop 通过抛出错误对组内记录进行采样,hadoop,group-by,apache-pig,sampling,Hadoop,Group By,Apache Pig,Sampling,示例数据:(tsv文件:sampl) 1A 2 b 3 c 当我运行此命令时,我在x=sample raw 1的行中得到错误 错误1200:不匹配的输入'raw'应为左对齐 分组记录不允许采样吗?不能在嵌套块内使用“采样”命令。pig中不支持此命令。 嵌套块中只允许少量操作,如(交叉、区分、筛选、FOREACH、限制和排序依据)。必须在嵌套块之外使用sample命令 另一个问题是,您正在使用默认分隔符ie选项卡加载输入数据。但是您的输入数据是用空格分隔的,所以您需要像这样更改脚本 raw= lo
x=sample raw 1的行中得到错误代码>
错误1200:不匹配的输入'raw'应为左对齐
分组记录不允许采样吗?不能在嵌套块内使用“采样”命令。pig中不支持此命令。
嵌套块中只允许少量操作,如(交叉、区分、筛选、FOREACH、限制和排序依据)。必须在嵌套块之外使用sample命令
另一个问题是,您正在使用默认分隔符ie选项卡加载输入数据。但是您的输入数据是用空格分隔的,所以您需要像这样更改脚本
raw= load 'sampl' using PigStorage(' ') as (f1:chararray,f2:chararray);
谢谢你的评论。输入数据有选项卡,但由于复制粘贴错误,此处显示为空格。太好了。如果有帮助,请将此问题标记为已回答。
raw= load 'sampl' using PigStorage(' ') as (f1:chararray,f2:chararray);