Amazon s3 有没有一种方法可以在笔记本电脑中使用PySpark列出目录？_Amazon S3_Pyspark_Apache Spark Sql_Cyberduck

Amazon s3 有没有一种方法可以在笔记本电脑中使用PySpark列出目录？

amazon-s3 pyspark

Amazon s3 有没有一种方法可以在笔记本电脑中使用PySpark列出目录？,amazon-s3,pyspark,apache-spark-sql,cyberduck,Amazon S3,Pyspark,Apache Spark Sql,Cyberduck,我试图查看每个文件都是一个特定的目录，但是由于目录中的每个文件都非常大，所以我不能使用sc.wholeTextfile或sc.textfile。我只想从它们那里获取文件名，然后在需要时在另一个单元格中提取文件。我可以使用Cyberduck很好地访问这些文件，上面显示了这些文件的名称例如：我有一组数据的链接在“name:///mainfolder/date/sectionsofdate/indiviual_files.gz，它可以正常工作，但我希望在“/main folder/date”和“/m

我试图查看每个文件都是一个特定的目录，但是由于目录中的每个文件都非常大，所以我不能使用sc.wholeTextfile或sc.textfile。我只想从它们那里获取文件名，然后在需要时在另一个单元格中提取文件。我可以使用Cyberduck很好地访问这些文件，上面显示了这些文件的名称

例如：我有一组数据的链接在“name:///mainfolder/date/sectionsofdate/indiviual_files.gz，它可以正常工作，但我希望在“/main folder/date”和“/main folder/date/sectionsofdate”中查看文件名，而不必通过sc.textFile或sc.Wholetextfile将它们全部加载。这两个函数都可以工作，所以我知道我的密钥是正确的，但是加载它们需要的时间太长。

考虑到文件列表可以由一个节点检索，您可以只在目录中列出文件。看看反应

返回一个元组（路径、内容），但我不知道文件内容是否懒得只获取元组的第一部分。

该解决方案对我不起作用。它不断地给我错误，说“方案没有文件系统”。我有一个到数据库的有效链接，但我想看看我在CyberDucks上能找到的其他目录。你想列出

amazon-s3

bucket中的文件吗？请查看“”，以及他们所有的链接页面以及“@Saurabh我很肯定这是一个amazon-s3 bucket，但他们网站上的任何文档对我的问题都没有帮助，因为它一直在说“不正确的凭证”。我知道我的访问密钥是正确的，我可以从我拥有的一个链接中提取数据，但我想用一种简单的方法找到其余链接的名称。