Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services EMR上的Spark:在EMR中运行数据的时间没有';t当节点数增加时减少_Amazon Web Services_Amazon S3_Apache Spark_Emr - Fatal编程技术网

Amazon web services EMR上的Spark:在EMR中运行数据的时间没有';t当节点数增加时减少

Amazon web services EMR上的Spark:在EMR中运行数据的时间没有';t当节点数增加时减少,amazon-web-services,amazon-s3,apache-spark,emr,Amazon Web Services,Amazon S3,Apache Spark,Emr,我的Spark程序从S3获取大量包含JSON数据的zip文件。它以spark变换的形式对数据执行一些清理。之后,我将其保存为拼花文件。当我在AWS中以10个节点8GB配置运行1GB数据的程序时,大约需要11分钟。我将其更改为20个节点32GB配置。仍然需要大约10分钟。只需要大约1分钟。为什么会有这种行为 因为添加更多机器并不总是解决方案,因此添加更多机器会导致不必要的网络数据传输,这在大多数情况下可能是瓶颈 此外,1GB的数据对于执行可伸缩性和性能基准测试来说也不是那么大。因为添加更多的机器并

我的Spark程序从S3获取大量包含JSON数据的zip文件。它以spark变换的形式对数据执行一些清理。之后,我将其保存为拼花文件。当我在AWS中以10个节点8GB配置运行1GB数据的程序时,大约需要11分钟。我将其更改为20个节点32GB配置。仍然需要大约10分钟。只需要大约1分钟。为什么会有这种行为

因为添加更多机器并不总是解决方案,因此添加更多机器会导致不必要的网络数据传输,这在大多数情况下可能是瓶颈


此外,1GB的数据对于执行可伸缩性和性能基准测试来说也不是那么大。

因为添加更多的机器并不总是解决方案,添加更多的机器会导致不必要的网络数据传输,这在大多数情况下可能是瓶颈

此外,1GB的数据对于执行可伸缩性和性能基准测试来说也没有那么大