Java 将大型文件摄取到单节点Hadoop上的配置单元中_Java_Hadoop_Garbage Collection_Apache Pig_Heap Memory

Java 将大型文件摄取到单节点Hadoop上的配置单元中

java hadoop apache-pig

Java 将大型文件摄取到单节点Hadoop上的配置单元中,java,hadoop,garbage-collection,apache-pig,heap-memory,Java,Hadoop,Garbage Collection,Apache Pig,Heap Memory,我希望定期将大型csv文件（高达6GB）接收到具有32GB RAM的Hadoop单节点中。他们的关键要求是在HCatalog中注册数据。（请不要讨论需求，这是一个功能演示）。性能不是必需的。蜂箱表应进行分区到目前为止，我用的是猪。迄今为止的经验教训是，主要的挑战是堆。生成的MapReduce作业会很快填满堆，一旦Java完成98%的垃圾收集，就会出现溢出一种解决方案可能是将大文件分为更小的部分。。。不过，我也认为，与猪不同的技术可能无法填补堆那么多。关于如何处理这样的用例有什么想法吗？thx

我希望定期将大型csv文件（高达6GB）接收到具有32GB RAM的Hadoop单节点中。他们的关键要求是在HCatalog中注册数据。（请不要讨论需求，这是一个功能演示）。性能不是必需的。蜂箱表应进行分区

到目前为止，我用的是猪。迄今为止的经验教训是，主要的挑战是堆。生成的MapReduce作业会很快填满堆，一旦Java完成98%的垃圾收集，就会出现溢出

一种解决方案可能是将大文件分为更小的部分。。。不过，我也认为，与猪不同的技术可能无法填补堆那么多。关于如何处理这样的用例有什么想法吗？thx

最好使用HiveQL而不是Pig（LOAD）。它只是基于文件传输，没有乔布斯先生