Apache spark spark应用程序如何访问AmazonS3中的文件/目录？_Apache Spark_Amazon S3_Amazon Ec2_Pyspark_Amazon Emr

Apache spark spark应用程序如何访问AmazonS3中的文件/目录？

apache-spark amazon-s3 amazon-ec2 pyspark

Apache spark spark应用程序如何访问AmazonS3中的文件/目录？,apache-spark,amazon-s3,amazon-ec2,pyspark,amazon-emr,Apache Spark,Amazon S3,Amazon Ec2,Pyspark,Amazon Emr,假设我想在S3存储桶中加载一个.csv文件作为数据帧我知道有个密码 spark.read.format('csv').load("s3://path/file.csv") 但我想知道幕后发生了什么？到底是什么让这一切发生的？我在一次采访中被问到这个问题，但我无法回答谢谢我不知道面试官期望的是什么，但我的答案是这样的它将创建一个带有实现的数据帧，因为您正试图访问一个文件（使用您将要使用的数据库） HadoopFsRelation将使用它，最终使用它将使您能够读取CSV文件以处理其数据

假设我想在S3存储桶中加载一个.csv文件作为数据帧

我知道有个密码

spark.read.format('csv').load("s3://path/file.csv")

但我想知道幕后发生了什么？到底是什么让这一切发生的？我在一次采访中被问到这个问题，但我无法回答

谢谢

我不知道面试官期望的是什么，但我的答案是这样的

它将创建一个带有实现的数据帧，因为您正试图访问一个文件（使用您将要使用的数据库）

HadoopFsRelation将使用它，最终使用它将使您能够读取CSV文件以处理其数据