Hadoop 如何使用配置单元UDF或Pig UDF将csv转换为xml?

Hadoop 如何使用配置单元UDF或Pig UDF将csv转换为xml?,hadoop,hive,apache-pig,talend,udf,Hadoop,Hive,Apache Pig,Talend,Udf,我正在尝试使用Hive或Pig将csv文件转换为xml 当我在谷歌上搜索时,我看到很多解决方案都是通过解析xml来获取csv,而不是相反。有人能帮我吗 现在我们正在使用一个名为Talend的工具来实现这一点,但这不是一个好的解决方案,因为它使用的是执行服务器而不是集群 eid,ename,sal 1,a,d1 2,b,d2 3,c,d3 到 为什么要将csv转换为xml?使用Pig将csv转换为xml不是一个好主意。我觉得您想要使用Pig/hive的唯一原因是您的数据量很大。如果是这种情况,

我正在尝试使用Hive或Pig将csv文件转换为xml

当我在谷歌上搜索时,我看到很多解决方案都是通过解析xml来获取csv,而不是相反。有人能帮我吗

现在我们正在使用一个名为Talend的工具来实现这一点,但这不是一个好的解决方案,因为它使用的是执行服务器而不是集群

eid,ename,sal
1,a,d1
2,b,d2
3,c,d3



为什么要将csv转换为xml?使用Pig将csv转换为xml不是一个好主意。我觉得您想要使用Pig/hive的唯一原因是您的数据量很大。如果是这种情况,请执行UDF来执行此操作。您的UDF代码应该是这样的:-非常感谢@sorabh,确实数据量很大,如果我不使用大数据组件,它将是一个bottleneck@inquisitive-注意-->我们需要将数据转换为称为ECMM的模型,ECMM是一种xml格式。但是我们的数据在配置单元视图中,所以我们需要将该数据转换为xmls@Acharya我上面提到的stackoverflow链接看起来不错。如果您正在用java编写UDF,并且面临任何问题,do update Me为什么要将csv转换为xml?使用Pig将csv转换为xml不是一个好主意。我觉得您想要使用Pig/hive的唯一原因是您的数据量很大。如果是这种情况,请执行UDF来执行此操作。您的UDF代码应该是这样的:-非常感谢@sorabh,确实数据量很大,如果我不使用大数据组件,它将是一个bottleneck@inquisitive-注意-->我们需要将数据转换为称为ECMM的模型,ECMM是一种xml格式。但是我们的数据在配置单元视图中,所以我们需要将该数据转换为xmls@Acharya我上面提到的stackoverflow链接看起来不错。如果您正在用java编写UDF并面临任何问题,请务必更新我
<?xml version="1.0"?>
<Employee_Info
  <Employee  eid="1">
  <Name>a</Name>
  <Department>d1</Department>
</Employee>
  <Employee  eid=2>
  <Name>b</Name>
  <Department>d2</Department>
</Employee>
<Employee  eid=3>
  <Name>c</Name>
  <Department>d3</Department>
</Employee>
</Employee_Info>