Amazon web services 创建AWS粘合作业是否需要爬虫?

Amazon web services 创建AWS粘合作业是否需要爬虫?,amazon-web-services,pyspark,boto3,aws-glue,aws-lake-formation,Amazon Web Services,Pyspark,Boto3,Aws Glue,Aws Lake Formation,我正在通过以下页面学习Pyspark胶水: 我的问题是:爬虫&在湖的形成中创建一个数据库需要创建一个粘合作业吗 我对我的aws角色有一些问题,我无权在LakeFormation中创建资源,所以我在想,我是否可以跳过它们,只创建一个粘合作业并测试我的脚本 例如,我只想测试我的pyspark脚本中的一个input.txt文件,我将它存储在S3中,我还需要crawler吗?我可以使用boto3创建一个粘合作业来测试脚本并进行一些预处理,然后将数据写回s3吗?否。您不需要创建爬虫来运行粘合作业 爬虫可以

我正在通过以下页面学习Pyspark胶水:

我的问题是:爬虫&在湖的形成中创建一个数据库需要创建一个粘合作业吗

我对我的aws角色有一些问题,我无权在LakeFormation中创建资源,所以我在想,我是否可以跳过它们,只创建一个粘合作业并测试我的脚本


例如,我只想测试我的pyspark脚本中的一个input.txt文件,我将它存储在S3中,我还需要crawler吗?我可以使用
boto3
创建一个粘合作业来测试脚本并进行一些预处理,然后将数据写回s3吗?

否。您不需要创建爬虫来运行粘合作业

爬虫可以读取多个数据源,并保持胶水目录最新。 例如,当您在S3中对数据进行分区时,随着新分区(文件夹)的创建,我们可以安排一个爬虫作业来读取这些新S3分区并更新Glue目录/表中的元数据

一旦使用元数据更新了Glue目录,我们就可以使用这些Glue ETL或Athena或其他流程轻松读取实际数据(在这些Glue目录/表后面)

在您的情况下,您直接想要读取S3文件,并在一个粘合作业中将它们写回S3,因此,您不需要爬虫程序或粘合目录