Apache spark spark应用程序如何访问AmazonS3中的文件/目录?

Apache spark spark应用程序如何访问AmazonS3中的文件/目录?,apache-spark,amazon-s3,amazon-ec2,pyspark,amazon-emr,Apache Spark,Amazon S3,Amazon Ec2,Pyspark,Amazon Emr,假设我想在S3存储桶中加载一个.csv文件作为数据帧 我知道有个密码 spark.read.format('csv').load("s3://path/file.csv") 但我想知道幕后发生了什么?到底是什么让这一切发生的?我在一次采访中被问到这个问题,但我无法回答 谢谢我不知道面试官期望的是什么,但我的答案是这样的 它将创建一个带有实现的数据帧,因为您正试图访问一个文件(使用您将要使用的数据库) HadoopFsRelation将使用它,最终使用它将使您能够读取CSV文件以处理其数据

假设我想在S3存储桶中加载一个.csv文件作为数据帧

我知道有个密码

spark.read.format('csv').load("s3://path/file.csv")
但我想知道幕后发生了什么?到底是什么让这一切发生的?我在一次采访中被问到这个问题,但我无法回答


谢谢

我不知道面试官期望的是什么,但我的答案是这样的

它将创建一个带有实现的数据帧,因为您正试图访问一个文件(使用您将要使用的数据库)

HadoopFsRelation将使用它,最终使用它将使您能够读取CSV文件以处理其数据