Amazon web services EMR上的Spark：在EMR中运行数据的时间没有'；t当节点数增加时减少_Amazon Web Services_Amazon S3_Apache Spark_Emr

Amazon web services EMR上的Spark：在EMR中运行数据的时间没有'；t当节点数增加时减少

amazon-web-services amazon-s3 apache-spark

Amazon web services EMR上的Spark：在EMR中运行数据的时间没有'；t当节点数增加时减少,amazon-web-services,amazon-s3,apache-spark,emr,Amazon Web Services,Amazon S3,Apache Spark,Emr,我的Spark程序从S3获取大量包含JSON数据的zip文件。它以spark变换的形式对数据执行一些清理。之后，我将其保存为拼花文件。当我在AWS中以10个节点8GB配置运行1GB数据的程序时，大约需要11分钟。我将其更改为20个节点32GB配置。仍然需要大约10分钟。只需要大约1分钟。为什么会有这种行为因为添加更多机器并不总是解决方案，因此添加更多机器会导致不必要的网络数据传输，这在大多数情况下可能是瓶颈此外，1GB的数据对于执行可伸缩性和性能基准测试来说也不是那么大。因为添加更多的机器并

我的Spark程序从S3获取大量包含JSON数据的zip文件。它以spark变换的形式对数据执行一些清理。之后，我将其保存为拼花文件。当我在AWS中以10个节点8GB配置运行1GB数据的程序时，大约需要11分钟。我将其更改为20个节点32GB配置。仍然需要大约10分钟。只需要大约1分钟。为什么会有这种行为

因为添加更多机器并不总是解决方案，因此添加更多机器会导致不必要的网络数据传输，这在大多数情况下可能是瓶颈

此外，1GB的数据对于执行可伸缩性和性能基准测试来说也不是那么大。

因为添加更多的机器并不总是解决方案，添加更多的机器会导致不必要的网络数据传输，这在大多数情况下可能是瓶颈

此外，1GB的数据对于执行可伸缩性和性能基准测试来说也没有那么大