Python 使用pyspark内核模式从sagemaker读取csv.gz文件_Python_Apache Spark_Amazon S3_Pyspark_Amazon Sagemaker

Python 使用pyspark内核模式从sagemaker读取csv.gz文件

python apache-spark amazon-s3 pyspark

Python 使用pyspark内核模式从sagemaker读取csv.gz文件,python,apache-spark,amazon-s3,pyspark,amazon-sagemaker,Python,Apache Spark,Amazon S3,Pyspark,Amazon Sagemaker,我正在尝试读取pyspark中的压缩csv文件。但我无法在sagemaker中以pyspark内核模式进行读取当内核是conda-python3（在sagemaker中）时，我可以使用pandas读取相同的文件我尝试的是： file1 = 's3://testdata/output1.csv.gz' file1_df = spark.read.csv(file1, sep='\t') 错误消息： An error was encountered: An error occurred wh

我正在尝试读取pyspark中的压缩csv文件。但我无法在sagemaker中以pyspark内核模式进行读取

当内核是conda-python3（在sagemaker中）时，我可以使用pandas读取相同的文件

我尝试的是：

file1 =  's3://testdata/output1.csv.gz'
file1_df = spark.read.csv(file1, sep='\t')

错误消息：

An error was encountered:
An error occurred while calling 104.csv.
: java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: 7FF77313; S3 Extended Request ID:

如果我遗漏了什么，请告诉我

遇到错误：调用104.csv时出错。：java.io.IOException:com.amazon.ws.emr.hadoop.fs.shade.com.amazonaws.services.s3.model.amazons3异常：拒绝访问（服务：amazon s3；状态代码：403；错误代码：拒绝访问；请求ID:7FF77313；s3扩展请求ID:

还有其他连接到S3的Hadoop连接器。Hadoop项目本身只积极维护S3A。 Apache的Hadoop的原始s3://客户端。它不再包含在Hadoop中。 Apache的Hadoop的s3n:文件系统客户端。此连接器不再可用：用户必须迁移到较新的s3a

我附上一份文件供你参考

PySpark根据他们提供的文档自动读取gz文件。单击此处查看文档

file1='s3://testdata/output1.csv.gz'
rdd=sc.textFile（文件1）
rdd.take（10）

在dataframe中加载文件的步骤

df=spark.read.csv（文件1）