Python 使用pyspark内核模式从sagemaker读取csv.gz文件
我正在尝试读取pyspark中的压缩csv文件。但我无法在sagemaker中以pyspark内核模式进行读取 当内核是conda-python3(在sagemaker中)时,我可以使用pandas读取相同的文件 我尝试的是:Python 使用pyspark内核模式从sagemaker读取csv.gz文件,python,apache-spark,amazon-s3,pyspark,amazon-sagemaker,Python,Apache Spark,Amazon S3,Pyspark,Amazon Sagemaker,我正在尝试读取pyspark中的压缩csv文件。但我无法在sagemaker中以pyspark内核模式进行读取 当内核是conda-python3(在sagemaker中)时,我可以使用pandas读取相同的文件 我尝试的是: file1 = 's3://testdata/output1.csv.gz' file1_df = spark.read.csv(file1, sep='\t') 错误消息: An error was encountered: An error occurred wh
file1 = 's3://testdata/output1.csv.gz'
file1_df = spark.read.csv(file1, sep='\t')
错误消息:
An error was encountered:
An error occurred while calling 104.csv.
: java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: 7FF77313; S3 Extended Request ID:
如果我遗漏了什么,请告诉我
遇到错误:
调用104.csv时出错。
:java.io.IOException:com.amazon.ws.emr.hadoop.fs.shade.com.amazonaws.services.s3.model.amazons3异常:拒绝访问(服务:amazon s3;状态代码:403;错误代码:拒绝访问;请求ID:7FF77313;s3扩展请求ID:
还有其他连接到S3的Hadoop连接器。Hadoop项目本身只积极维护S3A。
Apache的Hadoop的原始s3://客户端。它不再包含在Hadoop中。
Apache的Hadoop的s3n:文件系统客户端。此连接器不再可用:用户必须迁移到较新的s3a
我附上一份文件供你参考
PySpark根据他们提供的文档自动读取gz文件。
单击此处查看文档
file1='s3://testdata/output1.csv.gz'
rdd=sc.textFile(文件1)
rdd.take(10)
在dataframe中加载文件的步骤
df=spark.read.csv(文件1)