Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Dataframe s3存储桶中文件夹的pyspark列表子文件夹_Dataframe_Amazon S3_Pyspark_S3 Bucket - Fatal编程技术网

Dataframe s3存储桶中文件夹的pyspark列表子文件夹

Dataframe s3存储桶中文件夹的pyspark列表子文件夹,dataframe,amazon-s3,pyspark,s3-bucket,Dataframe,Amazon S3,Pyspark,S3 Bucket,我有一个s3存储桶,在其中存储将由pyspark代码处理的数据文件。 我要访问的文件夹是: s3a://bucket_name/data/ 此文件夹包含一个文件夹。我的目标是访问此目录中最后添加的文件夹的内容。 出于某些原因,我不想使用boto。 有没有办法访问文件夹列表,这样我就可以选择我想访问的文件夹。 如果指定文件夹,我可以访问文件,但我希望使其成为动态的。我建议使用s3fs,它是Bot3上的文件系统样式包装器。文件如下: 以下是您关心的部分(您可能必须传入或以其他方式配置您的AWS凭据

我有一个
s3
存储桶,在其中存储将由pyspark代码处理的数据文件。 我要访问的文件夹是:

s3a://bucket_name/data/
此文件夹包含一个文件夹。我的目标是访问此目录中最后添加的文件夹的内容。 出于某些原因,我不想使用boto。 有没有办法访问文件夹列表,这样我就可以选择我想访问的文件夹。
如果指定文件夹,我可以访问文件,但我希望使其成为动态的。

我建议使用s3fs,它是Bot3上的文件系统样式包装器。文件如下:

以下是您关心的部分(您可能必须传入或以其他方式配置您的AWS凭据):


谢谢,这很有效。如果您在EMR集群上运行此程序,请将
pip install s3fs
添加到bash引导脚本中,您可能会在代码或EMR笔记本中使用
s3fs.S3FileSystem(anon=False)
import s3fs
fs = s3fs.S3FileSystem(anon=True)
fs.ls('my-bucket')