Python 如何使用多个分隔符将文件加载到pig中?

Python 如何使用多个分隔符将文件加载到pig中?,python,apache-pig,hadoop-streaming,Python,Apache Pig,Hadoop Streaming,我有以下文件tax\u cal我想在pig中加载: 101,5 | 2;3 | 2 102,3 | 1;4.5|2;4 | 1 103,2 | 1;5|2;5.6 | 3 输出: 101,5 | 2,3 | 2 102,3 | 1,4.5 | 2,4 | 1 103,2 | 1,5 | 2,5.6 | 3 此外,我将把这个输出文件传递给python UDF以计算totalprice 如何实现这一点?因此,pig的基本加载命令如下所示,但我不确定您的文件样本数据类型。尝试查看下面的内容,并检查是否

我有以下文件
tax\u cal
我想在pig中加载:

101,5 | 2;3 | 2

102,3 | 1;4.5|2;4 | 1

103,2 | 1;5|2;5.6 | 3

输出:

101,5 | 2,3 | 2

102,3 | 1,4.5 | 2,4 | 1

103,2 | 1,5 | 2,5.6 | 3

此外,我将把这个输出文件传递给python UDF以计算totalprice


如何实现这一点?

因此,pig的基本加载命令如下所示,但我不确定您的文件样本数据类型。尝试查看下面的内容,并检查是否可以按照需要的方式对其进行修改

    A = LOAD '(your_file_name)' USING PigStorage(',') AS (bill_number:INT, tax:chararray); 

你能添加文件的第一行吗?你需要使用PIG加载它。对不起,我没有得到你的信息。不行,这样做只会在“|”之后给我值,我得到以下输出:(,2;3)(,2;4)(,2;2.5)我不知道如何分隔此文件:(嗯,我不理解你的文本文件,请发布你文本文件的前5行嗨,这是我要加载的文件,以解释它第一列是账单编号:int,第二列是包含税务详细信息的数组。例如,5 | 2,其中5 id price,2是tax。我必须将此文件加载到pig中,然后通过UDF计算总pri因此,它是用制表符分隔还是用逗号分隔?如果用逗号分隔,我将编辑我的上述答案,关于账单号和税