Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 在pig中将xml转换为csv_Hadoop_Apache Pig - Fatal编程技术网

Hadoop 在pig中将xml转换为csv

Hadoop 在pig中将xml转换为csv,hadoop,apache-pig,Hadoop,Apache Pig,所以我有不同的xml数据源……例如: src1.txt <foo> <bar>1</bar> </foo> <foo> <bar>2</bar> </foo> 1. 2. 。。等等 还有另一个数据 src2.txt <aux> <foobar>1</foobar> <fushbar>foo</fushbar> </aux>

所以我有不同的xml数据源……例如:

src1.txt

<foo>
<bar>1</bar>
</foo>
<foo>
<bar>2</bar>
</foo>

1.
2.
。。等等

还有另一个数据

src2.txt

<aux>
<foobar>1</foobar>
<fushbar>foo</fushbar>
</aux>

1.
福
。。。等等

因此基本上不同的xml(有效格式)

而不是写不同的猪脚本。。有没有办法编写一个脚本,然后将所有这些xml数据转换成csv?
谢谢

csv究竟包含什么内容?如何计算csv中的字段?@SNeumann csv将是foobar,fushbar\n 1,foo\n。。那么“aux”怎么了?你会如何处理更多的层次结构?您将如何处理属性?第一个文件呢?如何将这两个文件合并成一个文件?您计划每个输入文件有一个输出文件吗?所以,我只想提取xml的“元素”。。定义xml的开始和结束。。。所以这被忽略了。这就是将任何xml文件转换为csv文件的最合乎逻辑的方式吗??所以src1.txt和src2.txt是独立的xml文件。。我把它们作为我想做的事情的例子。。我不把它们结合起来。。很抱歉造成这样的混乱。那么,对于XML中更深层的层次结构,您会怎么做呢?您的xml文件是平面的吗?如果您希望每个输入xml获得一个输出csv,我不确定Pig是否是该任务的正确工具。