Amazon web services 创建AWS粘合作业是否需要爬虫？_Amazon Web Services_Pyspark_Boto3_Aws Glue_Aws Lake Formation

Amazon web services 创建AWS粘合作业是否需要爬虫？

amazon-web-services pyspark

Amazon web services 创建AWS粘合作业是否需要爬虫？,amazon-web-services,pyspark,boto3,aws-glue,aws-lake-formation,Amazon Web Services,Pyspark,Boto3,Aws Glue,Aws Lake Formation,我正在通过以下页面学习Pyspark胶水：我的问题是：爬虫&在湖的形成中创建一个数据库需要创建一个粘合作业吗我对我的aws角色有一些问题，我无权在LakeFormation中创建资源，所以我在想，我是否可以跳过它们，只创建一个粘合作业并测试我的脚本例如，我只想测试我的pyspark脚本中的一个input.txt文件，我将它存储在S3中，我还需要crawler吗？我可以使用boto3创建一个粘合作业来测试脚本并进行一些预处理，然后将数据写回s3吗？否。您不需要创建爬虫来运行粘合作业爬虫可以

我正在通过以下页面学习Pyspark胶水：

我的问题是：爬虫&在湖的形成中创建一个数据库需要创建一个粘合作业吗

我对我的aws角色有一些问题，我无权在LakeFormation中创建资源，所以我在想，我是否可以跳过它们，只创建一个粘合作业并测试我的脚本

例如，我只想测试我的pyspark脚本中的一个input.txt文件，我将它存储在S3中，我还需要crawler吗？我可以使用

boto3

创建一个粘合作业来测试脚本并进行一些预处理，然后将数据写回s3吗？

否。您不需要创建爬虫来运行粘合作业

爬虫可以读取多个数据源，并保持胶水目录最新。例如，当您在S3中对数据进行分区时，随着新分区（文件夹）的创建，我们可以安排一个爬虫作业来读取这些新S3分区并更新Glue目录/表中的元数据

一旦使用元数据更新了Glue目录，我们就可以使用这些Glue ETL或Athena或其他流程轻松读取实际数据（在这些Glue目录/表后面）

在您的情况下，您直接想要读取S3文件，并在一个粘合作业中将它们写回S3，因此，您不需要爬虫程序或粘合目录