Java 将大型文件摄取到单节点Hadoop上的配置单元中

Java 将大型文件摄取到单节点Hadoop上的配置单元中,java,hadoop,garbage-collection,apache-pig,heap-memory,Java,Hadoop,Garbage Collection,Apache Pig,Heap Memory,我希望定期将大型csv文件(高达6GB)接收到具有32GB RAM的Hadoop单节点中。他们的关键要求是在HCatalog中注册数据。(请不要讨论需求,这是一个功能演示)。性能不是必需的。蜂箱表应进行分区 到目前为止,我用的是猪。迄今为止的经验教训是,主要的挑战是堆。生成的MapReduce作业会很快填满堆,一旦Java完成98%的垃圾收集,就会出现溢出 一种解决方案可能是将大文件分为更小的部分。。。不过,我也认为,与猪不同的技术可能无法填补堆那么多。关于如何处理这样的用例有什么想法吗?thx

我希望定期将大型csv文件(高达6GB)接收到具有32GB RAM的Hadoop单节点中。他们的关键要求是在HCatalog中注册数据。(请不要讨论需求,这是一个功能演示)。性能不是必需的。蜂箱表应进行分区

到目前为止,我用的是猪。迄今为止的经验教训是,主要的挑战是堆。生成的MapReduce作业会很快填满堆,一旦Java完成98%的垃圾收集,就会出现溢出


一种解决方案可能是将大文件分为更小的部分。。。不过,我也认为,与猪不同的技术可能无法填补堆那么多。关于如何处理这样的用例有什么想法吗?thx

最好使用HiveQL而不是Pig(LOAD)。它只是基于文件传输,没有乔布斯先生