Amazon s3 有没有一种方法可以在笔记本电脑中使用PySpark列出目录?

Amazon s3 有没有一种方法可以在笔记本电脑中使用PySpark列出目录?,amazon-s3,pyspark,apache-spark-sql,cyberduck,Amazon S3,Pyspark,Apache Spark Sql,Cyberduck,我试图查看每个文件都是一个特定的目录,但是由于目录中的每个文件都非常大,所以我不能使用sc.wholeTextfile或sc.textfile。我只想从它们那里获取文件名,然后在需要时在另一个单元格中提取文件。我可以使用Cyberduck很好地访问这些文件,上面显示了这些文件的名称 例如:我有一组数据的链接在“name:///mainfolder/date/sectionsofdate/indiviual_files.gz,它可以正常工作,但我希望在“/main folder/date”和“/m

我试图查看每个文件都是一个特定的目录,但是由于目录中的每个文件都非常大,所以我不能使用sc.wholeTextfile或sc.textfile。我只想从它们那里获取文件名,然后在需要时在另一个单元格中提取文件。我可以使用Cyberduck很好地访问这些文件,上面显示了这些文件的名称


例如:我有一组数据的链接在“name:///mainfolder/date/sectionsofdate/indiviual_files.gz,它可以正常工作,但我希望在“/main folder/date”和“/main folder/date/sectionsofdate”中查看文件名,而不必通过sc.textFile或sc.Wholetextfile将它们全部加载。这两个函数都可以工作,所以我知道我的密钥是正确的,但是加载它们需要的时间太长。

考虑到文件列表可以由一个节点检索,您可以只在目录中列出文件。看看反应


返回一个元组(路径、内容),但我不知道文件内容是否懒得只获取元组的第一部分。

该解决方案对我不起作用。它不断地给我错误,说“方案没有文件系统”。我有一个到数据库的有效链接,但我想看看我在CyberDucks上能找到的其他目录。你想列出
amazon-s3
bucket中的文件吗?请查看“”,以及他们所有的链接页面以及“@Saurabh我很肯定这是一个amazon-s3 bucket,但他们网站上的任何文档对我的问题都没有帮助,因为它一直在说“不正确的凭证”。我知道我的访问密钥是正确的,我可以从我拥有的一个链接中提取数据,但我想用一种简单的方法找到其余链接的名称。