Apache pig apachepig中的模式格式化

Apache pig apachepig中的模式格式化,apache-pig,Apache Pig,我不熟悉这种语言,我正在尝试为excel电子表格中的数据创建一个模式,并将其下载到文本文件中 (附文本文件) 请注意,我没有java知识,所以这都是猪是否有人能帮助我正确设置格式以匹配模式并删除数值中的逗号 我的尝试代码: sales2000 = LOAD '2000rssales1.txt' USING PigStorage() AS (field1:chararray,field2:chararray,field3:int,field4:int,field5:int, field6:cha

我不熟悉这种语言,我正在尝试为excel电子表格中的数据创建一个模式,并将其下载到文本文件中

(附文本文件)

请注意,我没有java知识,所以这都是猪
是否有人能帮助我正确设置格式以匹配模式并删除数值中的逗号

我的尝试代码:

sales2000 = LOAD '2000rssales1.txt'  USING PigStorage()
AS (field1:chararray,field2:chararray,field3:int,field4:int,field5:int,
field6:chararray,field7:chararray,field8:chararray,field9:chararray,field10:chararray,
field12:chararray,field13:chararray,field14:chararray,field15:int)

将其加载到一个字段中,比如说
line:charrarray
并替换“,”和“”。然后可以使用“”拆分字段,并使用第15个字段进行计算

A = LOAD '2000rssales1.txt' AS (line:chararray);
B = FOREACH A GENERATE REPLACE(REPLACE(line,"\"",''),',','');
C = FOREACH B GENERATE STRSPLIT($0,' ',15); -- If your columns are tab separated use '\\t' instead of ' ' in strsplit.
或者,您也可以使用CSVExcelStorage()加载记录。下载piggybank.jar并使用下载路径进行注册

REGISTER /downloaded_path/piggybank.jar;
A = LOAD '2000rssales1.txt' USING org.apache.pig.piggybank.storage.CSVExcelStorage('\t')
B = FOREACH A GENERATE $0..$13,REPLACE($14,',',''); -- Replace the ',' with space for the 15th field;
DUMP B;
REGISTER /downloaded_path/piggybank.jar;
A = LOAD '2000rssales1.txt' USING org.apache.pig.piggybank.storage.CSVExcelStorage('\t')
B = FOREACH A GENERATE $0..$13,REPLACE($14,',',''); -- Replace the ',' with space for the 15th field;
DUMP B;