“我怎么跑？”；s3区cp“；EMR 5.x中pyspark shell/pyspark脚本中的命令_Pyspark_Amazon Emr_S3distcp

“我怎么跑？”；s3区cp“；EMR 5.x中pyspark shell/pyspark脚本中的命令

pyspark

“我怎么跑？”；s3区cp“；EMR 5.x中pyspark shell/pyspark脚本中的命令,pyspark,amazon-emr,s3distcp,Pyspark,Amazon Emr,S3distcp,我在pyspark脚本中运行s3 dist cp命令时遇到了一些问题，因为我需要从s3到hdfs的一些数据移动来提高性能 import os os.system("/usr/bin/s3-dist-cp --src=s3://aiqdatabucket/aiq-inputfiles/de_pulse_ip/latest/ --dest=/de_pulse/ --groupBy='.*(additional).*' --targetSize=64 --outputCodec=non

我在pyspark脚本中运行s3 dist cp命令时遇到了一些问题，因为我需要从s3到hdfs的一些数据移动来提高性能

import os

os.system("/usr/bin/s3-dist-cp --src=s3://aiqdatabucket/aiq-inputfiles/de_pulse_ip/latest/ --dest=/de_pulse/  --groupBy='.*(additional).*'  --targetSize=64 --outputCodec=none")

注意：-请确保提供s3区cp的完整路径，如（/usr/bin/s3区cp）

此外，我认为我们可以使用子流程。

如果您正在运行pyspark应用程序，则必须首先停止spark应用程序。

s3 dist cp

将挂起，因为pyspark应用程序正在阻塞

spark.stop()  # spark context
os.system("/usr/bin/s3-dist-cp ...")