Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/amazon-web-services/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python spark提交文件';不要从s3中读取文件,只需在其上进行检查_Python_Amazon Web Services_Apache Spark_Hadoop_Amazon S3 - Fatal编程技术网

Python spark提交文件';不要从s3中读取文件,只需在其上进行检查

Python spark提交文件';不要从s3中读取文件,只需在其上进行检查,python,amazon-web-services,apache-spark,hadoop,amazon-s3,Python,Amazon Web Services,Apache Spark,Hadoop,Amazon S3,当我试图使用spark submit从s3读取数据时,我遇到了一个问题。 当从s3存储桶读取数据时,应用程序只是在没有任何警告或控制台弹出的情况下卡住了。但是,如果我使用python运行同一个应用程序,它会工作!也许有人面临同样的问题 test.py的代码: 导入操作系统 从pyspark.sql导入SparkSession os.environ[“PYSPARK\u SUBMIT\u ARGS”]=“”--packages com.amazonaws:aws java sdk:1.11.711

当我试图使用spark submit从s3读取数据时,我遇到了一个问题。 当从s3存储桶读取数据时,应用程序只是在没有任何警告或控制台弹出的情况下卡住了。但是,如果我使用python运行同一个应用程序,它会工作!也许有人面临同样的问题

test.py的代码:

导入操作系统
从pyspark.sql导入SparkSession
os.environ[“PYSPARK\u SUBMIT\u ARGS”]=“”--packages com.amazonaws:aws java sdk:1.11.711,org.apache.hadoop:hadoop aws:3.2.0
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer
--conf spark.driver.memory=2g--conf spark.executor.memory=8g
--conf spark.dynamicAllocation.enabled=false pyspark外壳“”
spark=SparkSession.builder.appName(f“test”).getOrCreate()
打印(“从s3中读取”)#此处显示
s3filepath=“s3a://path/to/file”
df=spark.read.csv(
s3filepath,
sep=“|”,
header='false',
空值=“”,
推断模式=真)
打印(“显示df”)
df.show()
spark提交命令:

PYSPARK\u PYTHON=python3/usr/bin/spark提交--部署模式客户端\
--packages com.amazonaws:aws java sdk:1.11.519,org.apache.hadoop:hadoop aws:3.2.0\
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer\
--conf spark.driver.memory=2g\
--conf spark.executor.memory=8g\
--conf spark.dynamicAllocation.enabled=false\
test.py
但是当我只使用python3test.py时,它可以正常工作并毫不延迟地正确读取所有内容

spark版本:2.4.4

Hadoop版本:3.2.1


该文件包含约5K行。

问题是由spark资源分配管理器引起的。通过减少请求的资源来解决此问题。为什么它使用python3 test.py工作仍然是个谜

问题是由spark资源分配管理器引起的。通过减少请求的资源来解决此问题。为什么它使用python3 test.py工作仍然是个谜。