Csv 转换;3“;用拉丁语改成3

Csv 转换;3“;用拉丁语改成3,csv,hadoop,apache-pig,Csv,Hadoop,Apache Pig,我读了一个csv文件,其中包含的字段的数字如下:“3”。 我可以用拉丁语将此字段从“3”转换为3吗?我需要它来使用SUM()函数 谢谢你的帮助 TOKENIZE函数将在被视为单词分隔符的各种字符上拆分字符串,其中一个字符是引号。因此,如果你标记“3”并取中间的项目,它应该只有3。你可以编写一个UDF,去掉它周围的引号,或者使用JacobM的方法 但是,之后,您应该将字符“3”转换为int:(int)$1或(int)myvalue。这样您就可以使用sum 用删除“怎么样 例如: data =

我读了一个csv文件,其中包含的字段的数字如下:“3”。 我可以用拉丁语将此字段从“3”转换为3吗?我需要它来使用SUM()函数


谢谢你的帮助

TOKENIZE函数将在被视为单词分隔符的各种字符上拆分字符串,其中一个字符是引号。因此,如果你标记“3”并取中间的项目,它应该只有3。

你可以编写一个UDF,去掉它周围的引号,或者使用JacobM的方法

但是,之后,您应该将
字符“3”
转换为
int
(int)$1
(int)myvalue
。这样您就可以使用
sum


用删除
怎么样

例如:

data =
    LOAD 'data.txt' AS (num:CHARARRAY);

numbers =
    FOREACH data
    GENERATE
        (INT) REPLACE(num, '\\"', '');
然后您可以
分组
求和


一个优点是,您可以将返回的字符串直接转换为一个数字(无需处理行李)。也可以使用它来执行相同的操作。

Areway ouyay uresay说它是sway otnay“eethray”?(我知道您实际上指的是什么,我只是在胡闹:p)我想知道Pig Latin(语言,而不是Hadoop子项目)是不是主要是美国的东西,或者主要是以英语为母语的人知道的东西?看起来克里斯托夫在德国。无论如何,克里斯托夫,猪拉丁语是一种游戏语言,在这种语言中,英语单词通过将起始音移到单词的末尾并加上“是”来改变。哈哈,是的,我肯定不是“三”“:-DI必须做一个过滤器,我需要选择所有大于1的值,我这样做:
inputData=filter inputData BY(INT)REPLACE((chararray)value)\'val','\\','')>1;
。看起来不错吧?