Python 使用pyspark内核模式从sagemaker读取csv.gz文件

Python 使用pyspark内核模式从sagemaker读取csv.gz文件,python,apache-spark,amazon-s3,pyspark,amazon-sagemaker,Python,Apache Spark,Amazon S3,Pyspark,Amazon Sagemaker,我正在尝试读取pyspark中的压缩csv文件。但我无法在sagemaker中以pyspark内核模式进行读取 当内核是conda-python3(在sagemaker中)时,我可以使用pandas读取相同的文件 我尝试的是: file1 = 's3://testdata/output1.csv.gz' file1_df = spark.read.csv(file1, sep='\t') 错误消息: An error was encountered: An error occurred wh

我正在尝试读取pyspark中的压缩csv文件。但我无法在sagemaker中以pyspark内核模式进行读取

当内核是conda-python3(在sagemaker中)时,我可以使用pandas读取相同的文件

我尝试的是:

file1 =  's3://testdata/output1.csv.gz'
file1_df = spark.read.csv(file1, sep='\t')
错误消息:

An error was encountered:
An error occurred while calling 104.csv.
: java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: 7FF77313; S3 Extended Request ID: 
如果我遗漏了什么,请告诉我

遇到错误: 调用104.csv时出错。 :java.io.IOException:com.amazon.ws.emr.hadoop.fs.shade.com.amazonaws.services.s3.model.amazons3异常:拒绝访问(服务:amazon s3;状态代码:403;错误代码:拒绝访问;请求ID:7FF77313;s3扩展请求ID:

还有其他连接到S3的Hadoop连接器。Hadoop项目本身只积极维护S3A。 Apache的Hadoop的原始s3://客户端。它不再包含在Hadoop中。 Apache的Hadoop的s3n:文件系统客户端。此连接器不再可用:用户必须迁移到较新的s3a

我附上一份文件供你参考

PySpark根据他们提供的文档自动读取gz文件。 单击此处查看文档

file1='s3://testdata/output1.csv.gz'
rdd=sc.textFile(文件1)
rdd.take(10)
在dataframe中加载文件的步骤

df=spark.read.csv(文件1)