“我怎么跑?”;s3区cp“;EMR 5.x中pyspark shell/pyspark脚本中的命令

“我怎么跑?”;s3区cp“;EMR 5.x中pyspark shell/pyspark脚本中的命令,pyspark,amazon-emr,s3distcp,Pyspark,Amazon Emr,S3distcp,我在pyspark脚本中运行s3 dist cp命令时遇到了一些问题,因为我需要从s3到hdfs的一些数据移动来提高性能 import os os.system("/usr/bin/s3-dist-cp --src=s3://aiqdatabucket/aiq-inputfiles/de_pulse_ip/latest/ --dest=/de_pulse/ --groupBy='.*(additional).*' --targetSize=64 --outputCodec=non

我在pyspark脚本中运行s3 dist cp命令时遇到了一些问题,因为我需要从s3到hdfs的一些数据移动来提高性能

import os

os.system("/usr/bin/s3-dist-cp --src=s3://aiqdatabucket/aiq-inputfiles/de_pulse_ip/latest/ --dest=/de_pulse/  --groupBy='.*(additional).*'  --targetSize=64 --outputCodec=none")
注意:-请确保提供s3区cp的完整路径,如(/usr/bin/s3区cp)


此外,我认为我们可以使用子流程。

如果您正在运行pyspark应用程序,则必须首先停止spark应用程序。
s3 dist cp
将挂起,因为pyspark应用程序正在阻塞

spark.stop()  # spark context
os.system("/usr/bin/s3-dist-cp ...")