Java Hadoop磁盘使用率(中间减少)

Java Hadoop磁盘使用率(中间减少),java,apache,hadoop,cloudera,hadoop-partitioning,Java,Apache,Hadoop,Cloudera,Hadoop Partitioning,我是Hadoop的新手, 我使用的是集群,我的磁盘报价是15GB。 如果我试图在一个大数据集(大约25GB)上执行字数示例,我总是会收到异常“超过xxxx的磁盘空间配额:” 我在异常后检查了我的磁盘使用情况,它与报价相去甚远。 这是由于临时文件还是中间作业造成的? 是否可以删除临时/中间文件 (我可以通过Java代码修改配置,我无法直接访问.xml配置文件) 谢谢!;) 我会增加磁盘配额。15GB不是大数据。现在你可以把它放在电脑的主存储器里。最有可能的情况是,您无法尝试使用25 GB,这就是为

我是Hadoop的新手, 我使用的是集群,我的磁盘报价是15GB。 如果我试图在一个大数据集(大约25GB)上执行字数示例,我总是会收到异常“超过xxxx的磁盘空间配额:”

我在异常后检查了我的磁盘使用情况,它与报价相去甚远。 这是由于临时文件还是中间作业造成的? 是否可以删除临时/中间文件

(我可以通过Java代码修改配置,我无法直接访问.xml配置文件)


谢谢!;)

我会增加磁盘配额。15GB不是大数据。现在你可以把它放在电脑的主存储器里。最有可能的情况是,您无法尝试使用25 GB,这就是为什么您的使用量甚至没有接近25 GB的原因。在开始工作之前,您的使用量是多少?您要输出多少数据?如果键和值很小(一个单词和一个int),则不会产生大的临时文件。一旦作业完成,这些临时文件将被删除。