Amazon web services EMR上的Spark:在EMR中运行数据的时间没有';t当节点数增加时减少
我的Spark程序从S3获取大量包含JSON数据的zip文件。它以spark变换的形式对数据执行一些清理。之后,我将其保存为拼花文件。当我在AWS中以10个节点8GB配置运行1GB数据的程序时,大约需要11分钟。我将其更改为20个节点32GB配置。仍然需要大约10分钟。只需要大约1分钟。为什么会有这种行为 因为添加更多机器并不总是解决方案,因此添加更多机器会导致不必要的网络数据传输,这在大多数情况下可能是瓶颈Amazon web services EMR上的Spark:在EMR中运行数据的时间没有';t当节点数增加时减少,amazon-web-services,amazon-s3,apache-spark,emr,Amazon Web Services,Amazon S3,Apache Spark,Emr,我的Spark程序从S3获取大量包含JSON数据的zip文件。它以spark变换的形式对数据执行一些清理。之后,我将其保存为拼花文件。当我在AWS中以10个节点8GB配置运行1GB数据的程序时,大约需要11分钟。我将其更改为20个节点32GB配置。仍然需要大约10分钟。只需要大约1分钟。为什么会有这种行为 因为添加更多机器并不总是解决方案,因此添加更多机器会导致不必要的网络数据传输,这在大多数情况下可能是瓶颈 此外,1GB的数据对于执行可伸缩性和性能基准测试来说也不是那么大。因为添加更多的机器并
此外,1GB的数据对于执行可伸缩性和性能基准测试来说也不是那么大。因为添加更多的机器并不总是解决方案,添加更多的机器会导致不必要的网络数据传输,这在大多数情况下可能是瓶颈 此外,1GB的数据对于执行可伸缩性和性能基准测试来说也没有那么大